57DeD 11 сен 2015 в 10:49

Распознать нельзя оставить картинкой, или кое-что о сложных случаях оптического распознавания текста

5 мин

23K

Блог компании Content AIАнализ и проектирование систем*Обработка изображений*

+52

Комментарии 16

NeoCode 11 сен 2015 в 11:19

Мне это знакомо. Я в свое время пытался решить своими силами одну задачу — чтение отсканированных книг в формате djvu на маленьких экранах смартфонов. Идея была связана как раз с сегментированием текста «на лету». Казалось бы, все просто — прямо в реальном времени берем страницу (как картинку), режем ее на строки (это достаточно просто), режем каждую строку на 2 или 3 части, выводим одну под другой. Да — выглядеть будет криво, но зато читать можно нормально, а не под лупой.
Для простого теста работало. Но потом стали появляться картинки, таблицы, картинки с текстом и прочая экзотика, на которой алгоритм естественно ломался:) Пытался работать и с этим, но вскоре погряз во множестве разных вариантов и забросил.

Действительно грань между простым текстом и всякими картинками-таблицами очень тонкая. Читая статью, пришла в голову мысль, что во множестве графических форматов не хватает такого, который был бы картинкой, но содержал бы в себе метаинформацию: текст — например для поиска по документу, а возможно также и информацию форматирования текста и векторную графику. Тогда можно было бы спокойно запаковывать все «спорные» объекты в такие картинки.

turone 11 сен 2015 в 15:52

Читая статью, пришла в голову мысль, что во множестве графических форматов не хватает такого, который был бы картинкой, но содержал бы в себе метаинформацию

— По моему формат pdf полностью подходит под описание: и картинки, и текст и векторная графика и даже 3D объекты и прочее поддерживает. А в adobe acrobat можно распознанный текст одновременно с картинкой сохранять. Конечно качество распознавания у Abbyy намного выше.

NeoCode 12 сен 2015 в 13:23

Почему-то pdf представляется мне слишком навороченным и слишком закрытым. Возможно, имеют смысл какие-то более простые решения для частных случаев. Например fb2 — прекрасный формат для текста — более сложный чем txt, но не содержащий ничего лишнего. Возможно нечто подобное имеет смысл сделать для картинок.

Nashev 17 сен 2015 в 11:29

И дежавю тоже имеет текстовый слой вместе с картинковым, но как и pdf, он целый документ, а не отдельная иллюстрация в документе.

Zardos 11 сен 2015 в 11:49

Возможно в будущем программы будут хранить множественные интерпретации увиденного: есть оригинальное изображение, есть слой с распознанным текстом, есть слой с распознанными иллюстрациями на которых есть слой с распознанным текстом, а по желанию пользователя тексту можно будет менять шрифт, размер, ширину строки и пр. или оставить все как есть (если к примеру, это факсимиле Библии Гутенберга или каллиграфические тексты).

57DeD 11 сен 2015 в 11:54

Возможно, это будущее представляется слишком уж далёким.

xenohunter 11 сен 2015 в 13:02

Если верить их сайту и аккаунту в Твиттере, то последнее обновление было в 2012 году. Скорее, уж, прошлое.

TonyMas 11 сен 2015 в 13:10

Это будущее уже есть, называется PDF.
Осталось только научится строить правильные интерпретации текста, чтобы потом их все вместе сохранять.

Zoberg 11 сен 2015 в 14:15

Во многих книгах-учебниках-статьях под всеми рисунками есть подпись «Рисунок N», а под таблицами — «Таблица N». Интересно, учитывают ли ваши алгоритмы такие метки, которые должны были помочь людям лучше воспринимать материал, но теперь могут помочь и машинам?

57DeD 11 сен 2015 в 14:19

Да. Это происходит уже в подсистеме Синтез, которая восстанавливает логическую структуру документа по результатам распознавания.

НЛО прилетело и опубликовало эту надпись здесь

Nashev 17 сен 2015 в 11:33

А нельзя распознавать диаграммы типа предпоследней в свои векторные команды, и для каждого из выходных форматов их отражать по возможности? Типа нет возможности вектором — воткнуть растром, но если есть — таки воткнуть вектором?

57DeD 17 сен 2015 в 13:09

Как минимум это непросто. И тоже попрут разные мелочи. Скажем, в некоторых версия Visio двойная стрелка (как над «Trainsitory period») присутствует как отдельный объект. А вот в pdf её надо рисовать командами lineto.
Но вообще-то мне кажется, что такая идея разумная.

Nashev 17 сен 2015 в 13:25

Ну так я ж и говорю, по возможности. В Visio объектом, в pdf линиями. В word умным объектом с соответствующей настройкой… Ну да, не просто. Векторизаторы штука сложная, и не факт, что проще распознавания текста.

Randl 1 дек 2015 в 11:44

Научили бы вы FineReader формулы распознавать, а заодно и экспортировать результат в LaTeX, цены бы вам не было

Zenitchik 1 дек 2015 в 16:07

Категорически поддерживаю. Этого с древних времён очень не хватает.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий