Как стать автором
Обновить

Комментарии 8

Таким образом получается, что кроме как вручную чертежу атрибуты и не прописать. Интересно, а кто-нить юзал программу RasterID (ничего другого в инете пока не нашел), именно в целях автоматического атрибутирования чертежа по его штампу? На сколько успешно различные OCR справляются с данной задачей?
Хочу пробросить мостик между темой индексации в этой статье и вопросом про OCR из комментария Станислава. А так же поспорить с автором относительно невозможности решения рассматриваемой задачи.

Что за чем и почему?
OCR позволяет извлечь текст с изображения документа, по возможности без ошибок и изменений, в этом ценность OCR. Технология довольно зрелая, на современных сканах и документах требует исправлений менее 1% символов.

Над OCR можно надстроить слой «извлечения данных». Здесь и живет хитрая логика нормализации извлеченного текста (удаление незначащей пунктуации, замена одних аббревиатур на другие, проверка согласованности данных на документе, исправление ошибок OCR). Данная задача решена в промышленных масштабах, насколько мне известно, для счетов, чеков и визиток. Для прочих типов всегда требуется этап подготовки.

И, наконец, индексация: какие мета-данные приложить к изображению. При всей своей неоднозначности, задача часто решается путем шаблонов лучших практик. В крайнем случае требуется доводка напильником по месту.

А есть ли готовое решение?
Станислав упоминает программу RasterID, одной из функций которой, как следует из описания, является поиск и извлечение данных из штампов на документе. Опыта пользования этим приложением у меня нет, потому свое мнение я основываю на богатом опыте изучения сценариев использования FineReader OCR SDK. Очевидно, что RasterID предлагает возможность автоматизировать процесс поиска и извлечения данных из штампа, а так же отправки извлеченных данных в CMS. Однако чтобы решить задачу в общем виде, как ее понимает автор данной статьи, указанному приложению не будет хватать пары вещей:

1. Распознавания рукописных символов. Мне известны несколько производителей, которые продают системы распознавания рукописного текста.

2. Нормализации данных на штампе. Не секрет, что места на штампе мало и сокращения на нем сплошь и рядом. А каждая организация, не говоря уже об индивидах, сокращает по-своему. Без ручного труда, по крайней мере пока, не обойтись: нужно настроить словарь замен и подстановок.

На мой взгляд, оба пункта вполне решаемы уже сейчас.

Потому я не согласен с автором, что "работа по индексации чертежей большого формата не может быть автоматизирована", но должен согласиться, что "программ для такой автоматизации нет и, возможно, никогда не появится." Современные чертежи имеют электронную копию с необходимыми метаданными с самого рождения, а оцифровка архивов, как правило, выполняется один раз в рамках проекта, и число этих проектов ограничено. Кто будет серьезно вкладываться в ПО, которому суждено умереть через пару лет?

Дмитрий.
Дмитрий, огромное спасибо за комментарий.
Насчет современных чертежей — я согласен. Однако при создании архивов нередко приходится иметь дело со старыми бумажными чертежами, при работе с которыми вопросы индексирования стоят достаточно остро.
Кстати, не могли бы Вы порекомендовать какие-нибудь интересные публикации по проблематике распознавания штампа?
Андрей, порекомендовать, к сожалению, не смогу: такие статьи мне не попадались. Мои комментарии основываются на опыте выполнения схожих проектов, где требовались извлечение данных и индексация.
>> Кто будет серьезно вкладываться в ПО, которому суждено умереть через пару лет?
Позволю себе не согласиться.
Очевидно конечно, что когда-нибудь бумажные архивы чертежей, требующие оцифровки, закончатся, все они будут оцифрованы (ну или почти все). Но на данный момент масштаб распространения бумажных архивов чертежей огромен, особенно на постсоветском пространстве. Уверен, что подобное ПО (при качественном исполнении) было бы востребованным и прибыльным. Учитывая большую стоимость проектов по оцифровке бумажных архивов, ценник на подобное ПО можно установить достаточно большой. Если это ПО сможет заменить нескольких операторов, которым нужно платить деньги, то успех ему гарантирован.
Из моего опыта работы скажу, что пока на заводах, если и занимаются оцифровкой чертежей, то делают все это ручками. Берем, сажаем студентов и они нам чертят… А так, это очень непривычно для немолодых людей, не первый год работающих на кульманах. В этом случае они вообще предлагают использовать смешанный документооборот, либо вообще ничего не трогать и работать как и раньше с бумагой.
С другой стороны, на выходе пока все равно требуют бумажный вариант, хотя бы для тех же самых процедур согласования, или архивирования.
И мне лично кажется, что тут даже проблема не программистская, а скорее административная и организационная, проблема инерциальности мышления.
Вот мы у себя (чего уж скромничать, сам тоже приложился), делали АРМ работника архива для одного из заказчиков. Схема такая — приходят в архив документы. Не важно в бумажном или электронном виде. Если в бумажном, то сканируются. Загоняются в базу. Потом утверждаются. Для этого снова в печать. Потом на светокопию на раздачу подразделениям. В том числе и непроизводственным. Вопрос, ну и зачем им, нехорошим людям электронная копия, если все делают в бумажном виде?.. Если производственные, я еще пойму, что не все компы могут выдержать цеховую пыль, а остальным зачем…
Я полностью согласен с фразой, а том, что электронные архивы нужны, важны и обладают колоссальным потенциалом, неговоря уже про профит (в том числе с позиции перевода бумажных носителей в электронные). Только увы, пока мало кто это понимает и хочет применять.
Полностью согласен с Вами. Многие проблемы при внедрении систем электронного архива как раз обусловлены господством «бумажного» мышления и «бумажного» стиля работы. Если вся система «заточено» под работу с бумагой, то переход на электронный документооборот и электронное хранение не упрощает, а только усложняет дело.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий