Как стать автором
Обновить

Распознать нельзя оставить картинкой, или кое-что о сложных случаях оптического распознавания текста

Время на прочтение5 мин
Количество просмотров23K
Всего голосов 54: ↑53 и ↓1+52
Комментарии16

Комментарии 16

Мне это знакомо. Я в свое время пытался решить своими силами одну задачу — чтение отсканированных книг в формате djvu на маленьких экранах смартфонов. Идея была связана как раз с сегментированием текста «на лету». Казалось бы, все просто — прямо в реальном времени берем страницу (как картинку), режем ее на строки (это достаточно просто), режем каждую строку на 2 или 3 части, выводим одну под другой. Да — выглядеть будет криво, но зато читать можно нормально, а не под лупой.
Для простого теста работало. Но потом стали появляться картинки, таблицы, картинки с текстом и прочая экзотика, на которой алгоритм естественно ломался:) Пытался работать и с этим, но вскоре погряз во множестве разных вариантов и забросил.

Действительно грань между простым текстом и всякими картинками-таблицами очень тонкая. Читая статью, пришла в голову мысль, что во множестве графических форматов не хватает такого, который был бы картинкой, но содержал бы в себе метаинформацию: текст — например для поиска по документу, а возможно также и информацию форматирования текста и векторную графику. Тогда можно было бы спокойно запаковывать все «спорные» объекты в такие картинки.
Читая статью, пришла в голову мысль, что во множестве графических форматов не хватает такого, который был бы картинкой, но содержал бы в себе метаинформацию
— По моему формат pdf полностью подходит под описание: и картинки, и текст и векторная графика и даже 3D объекты и прочее поддерживает. А в adobe acrobat можно распознанный текст одновременно с картинкой сохранять. Конечно качество распознавания у Abbyy намного выше.
Почему-то pdf представляется мне слишком навороченным и слишком закрытым. Возможно, имеют смысл какие-то более простые решения для частных случаев. Например fb2 — прекрасный формат для текста — более сложный чем txt, но не содержащий ничего лишнего. Возможно нечто подобное имеет смысл сделать для картинок.
И дежавю тоже имеет текстовый слой вместе с картинковым, но как и pdf, он целый документ, а не отдельная иллюстрация в документе.
Возможно в будущем программы будут хранить множественные интерпретации увиденного: есть оригинальное изображение, есть слой с распознанным текстом, есть слой с распознанными иллюстрациями на которых есть слой с распознанным текстом, а по желанию пользователя тексту можно будет менять шрифт, размер, ширину строки и пр. или оставить все как есть (если к примеру, это факсимиле Библии Гутенберга или каллиграфические тексты).
Если верить их сайту и аккаунту в Твиттере, то последнее обновление было в 2012 году. Скорее, уж, прошлое.
Это будущее уже есть, называется PDF.
Осталось только научится строить правильные интерпретации текста, чтобы потом их все вместе сохранять.
Во многих книгах-учебниках-статьях под всеми рисунками есть подпись «Рисунок N», а под таблицами — «Таблица N». Интересно, учитывают ли ваши алгоритмы такие метки, которые должны были помочь людям лучше воспринимать материал, но теперь могут помочь и машинам?
Да. Это происходит уже в подсистеме Синтез, которая восстанавливает логическую структуру документа по результатам распознавания.
НЛО прилетело и опубликовало эту надпись здесь
А нельзя распознавать диаграммы типа предпоследней в свои векторные команды, и для каждого из выходных форматов их отражать по возможности? Типа нет возможности вектором — воткнуть растром, но если есть — таки воткнуть вектором?
Как минимум это непросто. И тоже попрут разные мелочи. Скажем, в некоторых версия Visio двойная стрелка (как над «Trainsitory period») присутствует как отдельный объект. А вот в pdf её надо рисовать командами lineto.
Но вообще-то мне кажется, что такая идея разумная.
Ну так я ж и говорю, по возможности. В Visio объектом, в pdf линиями. В word умным объектом с соответствующей настройкой… Ну да, не просто. Векторизаторы штука сложная, и не факт, что проще распознавания текста.
Научили бы вы FineReader формулы распознавать, а заодно и экспортировать результат в LaTeX, цены бы вам не было
Категорически поддерживаю. Этого с древних времён очень не хватает.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий