Как стать автором
Обновить

Комментарии 27

Похоже, что всё идёт к тому, что документы будут описываться правилами «как их сделать», а не «что там изобразить».
Поправьте, пожалуйста, JPEG200 -> JPEG2000.
Поправил, спасибо.
А текст при этих настройках (FR10, по умолчанию) распознается?
И куда в файле он помещается, как при этом изменяется сжатие?
Достаточно ли для добавления распознанного текста обычного FR или нужен FR Engine?
Текст распознаётся и помещается отдельным слоем под картинку.

Весь механизм работает и в FR Engine, и в обычном FR одинаковым образом — у них общий код. В Engine чуть побольше ручек.

Про сжатие я не уверен, что понял вопрос. Pdf представляет из себя текст, картинки и управляющие команды. Обычно картинки имеют самый большой размер.
Технология MRC направлена на то, чтобы уменьшить размер картинок. Размер текстового слоя не меняется, управляющих команд становится немножко больше.
Спасибо за полный ответ.
Имелось в виду под изменением сжатия, что изменились накладные расходы для текста под MRC, и, может, вы научились сжимать и текст внутри PDF.
Насколько я понял, текст не сжимается, а накладные в виде команд несущественно увеличиваются, так?
Да.

может, вы научились сжимать и текст внутри PDF.

Давно уже. Текст внутри и команды его вывода сжимаются zip'ом.
Спасибо, познавательно!
Когда буквы объединяются в кластер, показывается случайная буква из кластера или «средняя» буква?
Сорри, промазал ссылкой и ответил ниже.

Зависит от реализации. У нас «средняя».
Это хорошо. На мой взгляд это улучшает изображение.
НЛО прилетело и опубликовало эту надпись здесь
Зависит от реализации. У нас «средняя».
Вот уж действительно сжимает так, что не отличишь, на второй паре картинок даже URL совпадает.
:) Поправлено.
Очень интересные результаты и технология.
Кстати, уже бывшие конкуренты Abbyy, Cognitive Technologies недавно анонсировали нечто похожее.

спасибо интересно… ещё интересно какие алгоритмы ищут что есть что…
Да, кстати очень интересно как она отличается что етсь просто картинка а что есть буквы.
хотя я тут подумал, алгоритм наверное такой, если нельзя распознать считаем это картинкой…
хотя думаю алгоритм посложнее, у них же есть для распознования текстов
да даже как текст то распозновать не ясно.
надо определить размер буквы учесть ошибку сканера или фотоаппарата плюс ещё понять откуда начинается текст на странице. интересно было бы про это почитать:)
ну думаю сикреты своей OCR нам не выдадут… хотя общую концепцию послушать было бы интересно
что сможем, обязательно расскажем!
ждем продолжения, очень интересно
Насколько я понимаю примерно так же обработали свидетельство о рождении Обамы.
Клёво. Наконец-то DJVU встроили в PDF.
Интересно, какие дыры в патентах это позволили?
НЛО прилетело и опубликовало эту надпись здесь
Она позволяет не только уменьшить размер, но и улучшить качество текста (с JPEG большинство текста размывается).
Зарегистрируйтесь на Хабре, чтобы оставить комментарий