Pull to refresh
16
0
Василий Панфёров @vpanferov

User

Send message

Классификация документов по их внешнему виду и содержанию

Reading time 4 min
Views 11K
imageСегодня мы расскажем вам, как и зачем можно применять классификаторы для разделения и сортировки разных документов по их типам.

В компании ABBYY, помимо программистов, лингвистов, аналитиков и других разных полезных людей, есть много классификаторов. Конечно, классификаторы – не люди, а алгоритмы, но они выполняют работу, без которой качественное распознавание текста невозможно. Без них не обойтись на самых разных этапах обработки документов – от нахождения зон, содержащих текст на картинках, до распознавания конкретных символов в строчках с текстом.

Но на этом работа классификаторов не заканчивается.
Читать дальше →
Total votes 33: ↑25 and ↓8 +17
Comments 8

ABBYY Cloud OCR SDK: публичный API распознавания в облаке Windows Azure

Reading time 5 min
Views 26K
До недавнего времени в вебе наши технологии распознавания «жили» только на сайте www.abbyyonline.com, этот сервис предназначен для конечных пользователей. И вот теперь мы готовы объявить о запуске бета версии веб-API распознавания для разработчиков. Знакомьтесь – ABBYY Cloud OCR SDK, «облачный брат» уже знакомого нашим читателям ABBYY FineReader Engine.

Нам уже достаточно давно хотелось выпустить продукт, который позволял бы использовать OCR-технологии со всевозможных «тонких» и не очень устройств и всевозможных операционных систем и при этом был удобен и недорог. Надеемся, у нас это получилось. ABBYY Cloud OCR SDK предполагает оплату по мере использования, так что функции качественного распознавания становятся доступны при минимальных начальных вложениях.

Под катом мы подробнее расскажем о том, как мы над ним работали и что у нас получилось. Пока сервис находится в закрытом бета-тестировании, но мы считаем, что он уже достаточно стабилен, и стадия открытой беты всё ближе. Мы хотели бы пригласить читателей Хабра стать одними из первых «внешних» бета-тестеров ABBYY Cloud OCR SDK. О том, как получить доступ, – тоже под катом.
Читать дальше →
Total votes 27: ↑25 and ↓2 +23
Comments 16

Как технология MRC уменьшает размер PDF-документов

Reading time 4 min
Views 41K
Формат PDF уже давно прижился как средство сохранения документов, которые затем не предполагается редактировать. Все PDF файлы можно условно разделить на два класса. Первый – это документы, которые были свёрстаны в цифровом виде, и затем были сконвертированы в PDF. Инструкция к какому-нибудь устройству будет, скорее всего, именно таким файлом. Внутри он выглядит как текст и графика плюс команды форматирования, описывающие, как надо располагать элементы на странице.

Второй класс – это документы, полученные в результате сканирования бумажных изображений. Их можно пропустить через ABBYY FineReader, и они превратятся в первый тип, а можно просто сохранить в PDF как картинки. И этим часто имеет смысл пользоваться, когда хочется сохранить исходный вид документа. Несмотря на то, что ABBYY FineReader довольно хорошо распознаёт документы, возникают ошибки распознавания, какие-то важные элементы на странице не находятся, в общем, то, что получается, по виду несколько отличается от исходного документа.

Поэтому часто имеет смысл сохранять в PDF изображение исходной картинки, а под него подкладывать распознанный текст для того, чтобы можно было найти документ по ключевым словам или воспользоваться copy-paste. Смущает только один момент – такие PDF-файлы имеют немаленький размер, от полумегабайта на страницу и больше. Соответственно, если отсканировать среднего размера учебник по матанализу, получится файл мегабайт на 200.

Под катом подробности и 3,5 Мб картинок
Total votes 80: ↑77 and ↓3 +74
Comments 27

Information

Rating
Does not participate
Registered
Activity