aram_pakhchanian 13 мар 2014 в 00:10

Новая версия ABBYY FineReader for Mac: не уходя в дебри сложных фич

3 мин

9.7K

Блог компании Content AI

+22

Комментарии 23

lasc 13 мар 2014 в 00:50

C сайта не ясно, почему версия с 3мя языками стоит на 30AUD дороже чем версия с 170.

olegkrasnov 13 мар 2014 в 00:56

Размер FineReader.app 1,22 ГБ. Помню какая-то версия под винду весила около сотни мегабайтов и всем устраивала (давно это правда было).

aram_pakhchanian 13 мар 2014 в 01:10

Добавились китайский, японский и корейский. Там очень много символов, и они сложные, вырос размер соответствующих баз. Ну и языков становится все больше и больше, растет размер словарей.

olegkrasnov 13 мар 2014 в 02:21

И как я жил раньше без китайских, японских и корейских баз?

А если серьёзно, было бы неплохо выложить рядом укороченную версию, чтобы там был только русский и английский.

serg747 13 мар 2014 в 08:36

IMHO, было бы неплохо за небольшую денежку покупать «голый», базовый пакет без языков, а к нему докупать необходимые языки. Кому-то нужен английский, а кому-то — немецкий или, например, испанский.

aram_pakhchanian 13 мар 2014 в 10:02

Получится, что голый продукт не работает вовсе. Вряд ли это пользователям понравится. Если поставить в базовый пакет непопулярный язык, это не понравится большинству — для них продукт все равно не будет работать. Если оставить популярный (напр английский), то мы заработаем сильно меньше (ну, допустим, мы перенесем этот удар), а носители остальных языков все равно будут считать себя обделенными. Нет в мире совершенства :)

57DeD 13 мар 2014 в 16:37

А если не языки, а форматы для экспорта?
К примеру, «голый» продукт умеет сохранять только в txt (или abbyy-xml), экспорт в каждое новое направление стоит дополнительных денег.

aram_pakhchanian 14 мар 2014 в 23:06

Ну началось же обсуждение с того, что хотим место экономить. Таким методом место не сэкономить.

57DeD 15 мар 2014 в 09:24

Не, я про «купить». IMHO, направления экспорта — удобное место, где можно «проявить гибкость» в деле ценообразования и порождения более дешёвых версий.

НЛО прилетело и опубликовало эту надпись здесь

serg747 14 мар 2014 в 11:24

Ок. Тогда можно сделать что-то типа «конфигуратора»: пользователь при покупке получает «голое» базовое ПО + возможность выбрать те языки, которые ему необходимы. В зависимости от выбранных языков высчитывается стоимость покупки. Ну и возможность впоследствии докупать языки по мере необходимости.
Исхожу из того, что владельцу, например, MB Air забивать и так небольшой SSD ненужными ему языковыми пакетами совсем не интересно. ;)

aram_pakhchanian 14 мар 2014 в 23:04

Все это немного сложно сделать в App Store. Мы подумаем, а пока простое решение: откройте внутренности контейнера с приложением, дойдите до папки Frameworks. Там лежат файлы системы распознавания. Выберите все файлы, у которых в расширении есть буквы cjk, и перекиньте их куда-нибудь. Потом запустите FineReader и проверьте, что все работает. Вы сэкономите довольно много места.

Nashev 2 апр 2014 в 15:49

Нет.
Получается, что «лишь один из вариантов поставляемого по сети продукта не работает». Ровно тот, который и не должен.

Ничего же не мешает и в коробку класть по-прежнему все имеющиеся языки, и в интернете продавать готовые комплекты с языками, которые нужны сразу?..

MisterSpock 13 мар 2014 в 07:31

Вообще, это неплохо, что продукты, считавшиеся «классикой для Windows», потихоньку перетекают в полнофункциональном виде на Мас.

С одной стороны, на Маке местами плохо без игрушек (о, допотопный Titan Quest!), и меня как домашнего пользователя это ужасно бесит. С другой, взаимопроникновение продуктов между платформами не может не радовать, и Файнридер — это ценное дополнение для юзеров, вынужденных быть «тупыми свитчерами» по долгу работы или иным соображениям.

Ещё бы сделали RPP для Винды и Handy Backup для Макинтоша, и мои персональные потребности в кроссплатформенном ПО были бы закрыты на 146%! Эх, мечты. мечты…

iAlex 13 мар 2014 в 08:15

Под мак есть не менее изящное решение в виде TimeMashine и Carbon Copy Cloner. Если не удовлетворяет первое, то железобетонное второе устроит.

olegkrasnov 13 мар 2014 в 13:56

SuperDuper ещё.

Quiensabe 14 мар 2014 в 04:18

Относительно встроенного редактора я с вами не соглашусь. То есть спеллер конечно нужен, но не только.

Очень часто возникает ситуация — нужно взять сканированный текст, сложный, c колонками, заголовками, выносками и т.п. И переформатировать его, превратить в нормальную статью.

Сейчас на выходе распознавания получим word-файл где текстовые блоки жестко раскиданы по странице. Выглядит классно, но при попытке что-то поправить — макет расползается «в кашу»! Приходится тупо снимать все стили и потом вручную править полученную «простыню». При этом хорошо если текстовые блоки встанут в нужном порядке…
Да, есть режимы типа «форматированный пробелами текст» и другие. Но они спасают лишь отчасти — ведь все форматирование, отступы, стили заголовков и т.п. — тоже потеряется…

Так что имхо — нужен «редактор-конструктор». Который бы позволил «конструировать» текст на выходе — выбирать порядок блоков, показать какие блоки — это колонки и их нужно просто слить в один на всю ширину, выбрать формат бумаги для экспорта, отметить стили для блоков текста, и т.п. Все это можно настроить для всего документа, групп страниц или отдельных страниц.

В идеале хочется чтобы на выходе у программы был полноценный документ, а не «сырье» которое иногда быстрее набрать чем нормально отформатировать… Это естественно касается и версии под windows.

aram_pakhchanian 14 мар 2014 в 09:27

Потребность понятна. Давайте по пунктам.

Чтобы поправить порядок блоков, есть специальная команда внутри FineReader, в редакторе блоков. После чего ничего руками править в выходном файле не нужно, текст будет в нужном порядке.

Есть два режима, которые облегчат вашу задачу, в зависимости от того, что вам нужно получить на выходе. Один называется «форматированный текст», другой «редактируемый текст». В первом случае система не будет пытаться сохранить полное форматирование страницы (расположение колонок, картинок и т.д.), а выдаст весь текст как один сплошной поток. Но при этом будут сохранены параметры абзацев (стили, отступы и т.д.) и форматирование самого текста (шрифты, наклон, выделение и т.д.). Во втором случае система попытается воссоздать полное форматирование страницы, но будет делать это методами, которые позволяют ее дальнейшее редактирование. При этом какие-то элементы форматирования в точности повторить не получится, поэтому результат, возможно, будет несколько отличаться от оригинала.

Теперь про «конструктор». С порядком блоков разобрались. Идея показать, какие блоки – это колонки, понятна. А что делать с остальными, которые не помечены как колонки? Куда их располагать?

Насчет выбора формата бумаги для экспорта: как функциональность должна при это отличаться от того, как это происходит при изменении формата бумаги во внешнем редакторе? Можете хотя бы в двух словах описать?

Насчет стиля для блоков: очень часто один блок содержит разный текст, с разными стилями. В блоке может содержаться заголовок, могут перемежаться обычный текст с нумерованными пунктами. Поэтому такой инструмент принудительного назначения стиля на блок кажется несколько грубоватым. Ну и к тому же принудительное назначаение стиля в редакторе не выглядит сложной операцией: выделяете текст и одним кликом выбираете стиль. Чем такая операция удобнее в FineReader?

Насчет идеала я понимаю. Но не очень пока понимаю, как его достичь, не имея полноценного редактора внутри FineReader, со практически всей функциональностью того же Microsoft Word. Мой опыт показывает, что человек добивается наилучших результатов в том инструменте, которым чаще всего пользуется и лучше всего владеет. Поэтому, как мне кажется, это идеал достижим только теоретически. На практике даже если мы предоставим редактор класса Microsoft Word внутри FineReader, люди предпочтут пользоваться тем же Word просто потому, что намного лучше им владеют. Нет?

Поэтому мне представляется, что задача FineReader состоит в том, чтобы выдать максимально качественное «сырье», из которого минимальными усилиями можно получить нужный результат.

Quiensabe 14 мар 2014 в 13:54

Спасибо за такой развернутый ответ. Думаю во многом вы правы, а я просто не совсем разобрался с возможностями программы, но все же опишу свое виденье проблемы, вдруг пригодиться)

В качестве примера — результат распознавания. yadi.sk/d/hJhPSImBKWMHw
Возможно я что-то сделал неправильно, или исходник был «корявый», или программа была не самая новая, но файл полученный на выходе править очень сложно. И кстати размер бумаги там менять бесполезно (или текст останется кирпичом по центру, или все поплывет).

На счет стилей для блоков — имелись ввиду «уровни» текста. Чтобы можно было, например, назначить уровень заголовков, и потом в word собрать автоматически оглавление.
Но это важно если был бы режим группового редактирования. Я представляю это так — выделяю несколько страниц и вижу их наложение друг на друга, будто все страницы на прозрачных пленках. В таком режиме я могу, например, массово снять номера страниц, убрать или отредактировать колонтитулы, отступы и т.п.

На счет конструктора — с учетом ваших слов, думаю он действительно не нужен. Но вот инструмент позволяющий в реальном времени видеть получаемый на выходе текст — очень бы пригодился. Чтобы не эксперементировать подолгу с разными режимами, а сканировать и сразу видеть результат. Причем меняя настройки или выбирая режим — нужно сразу видеть изменения (и желательно с понятными названиями пресетов, т.к. отличия между «форматированный текст» и «редактируемый текст» — так сразу и не разгадать...).

Конечно такой подход потребует пересмотреть сам подход к работе пользователя. Но ведь именно об этом вы и говорите?

aram_pakhchanian 14 мар 2014 в 23:07

Спасибо за интересные идеи. Пошли думать. :)

Nashev 2 апр 2014 в 16:25

Если какой-то параметр текста умеет быть программой распознан, то, ИМХО, необходимо, чтобы его можно было вручную той же программой подкрутить. И желательно не только персонально, для отдельного элемента текста, к которому он отнесён, но и массово, для всего выделенного.

А вообще, мне лично всегда не хватало возможности после первого (чернового, как правило) распознавания сильнее вручную ограничить распознавание, и повторить его уже начисто:
— указать, какие символы могут быть а какие не могут (есть выбор языков распознавания, но иногда хотелось бы глубже залезть, говоря системе «этой буквы в этом тексте не встречается!» или «цифр в тексте нет!», или «тут нигде не используются апострофы» и чтобы распознавание бралось искать следующую подходящую гипотезу по всему тексту.
— указать, какие стили (шрифты, их размеры и т.п, отступы, межстрочные расстояния и т.п.) действительно встречаются, а какие нет — чтобы распознаватель подбирал подходящий из разрешённых, а не делал новый стиль каждый раз, когда хочет.

И ещё, не знаю, не появились ли они новых версиях — но для работы со сканами очень нужны инструменты ручного и автоматического выравнивания загибов страниц у корешка, а для работы с фотокопиями — инструменты ручного и автоматического выравнивания перспективных искажений, поворотов и вообще произвольных изгибов снятого листа, а так же инструменты выравнивания освещения, которое часто оказывается более ярким около центра листа и круговым градиентом уходит в тень к краям. Инструмент выравнивания изгибов, поворотов и прочих геометрических искажений я себе вижу в виде изначально прямоугольной сетки, все узлы которой можно подвигать мышкой, наложив на изображение листа её углы, подправив края и искривив внутренние линии сетки вдоль кривых строк и колонок. И чтоб рядом был виден итоговый вариант выпрямленного листа, получающийся при выпрямлении сетки вместе с включённой в неё картинкой.

Nashev 8 апр 2014 в 17:00

С яркостью — только подбираетесь: habrahabr.ru/company/abbyy/blog/218285/
но всё же подбираетесь, и это хорошо )

Остальное б тоже…

sfoid 12 мар 2020 в 09:16

Купил FineReader for Mac в 2020 году. Посмотрел версию, а ее в 2013 году скомпилировали. Так я добрался до этого поста, похоже с того времени ничего совсем не делали :(

Зарегистрируйтесь на Хабре, чтобы оставить комментарий