Как стать автором
Обновить
  • по релевантности
  • по времени
  • по рейтингу

Технологии FineReader для Linux

ABBYY
SDK for Linux Вы спрашивали: что ABBYY выпускает помимо всем известных FineReader и Lingvo? А на нашем форуме люди часто спрашивают: не планируем ли мы выпустить FineReader под Linux? Так вот, этот пост — ответ на оба этих вопроса! Файн под линукс уже давно существует в виде API и называется FineReader Engine. А совсем недавно мы выпустили новую, 9-ю версию энжина для линукс, которая ещё быстрее, ещё точнее распознаёт большее число языков. Подробнее о том, что такое FREngine и кому он нужен, написал Василий Панфёров — Руководитель отдела разработки технологических продуктов.
Читать дальше →
Всего голосов 56: ↑46 и ↓10 +36
Просмотры18.2K
Комментарии 55

Gcc vs Intel C++ Compiler: собираем FineReader Engine for Linux

ABBYY
Предпосылкой к написанию данной статьи было вполне естественное желание улучшить производительность FineReader Engine.

Существует мнение, что компилятор от Intel производит гораздо более быстрый код, чем gcc. И ведь было бы неплохо увеличить скорость распознавания ничего не сделав просто собрав FR Engine другим компилятором.
Что из этого получилось?
Всего голосов 55: ↑53 и ↓2 +51
Просмотры24.5K
Комментарии 55

Как ABBYY FineReader Engine распознаёт данные на чертежах

ABBYY
Многие из нас помнят со школьных уроков черчения вот такие таблички, которые нужно было рисовать на каждом листе в правом нижнем углу. По ним всегда можно было быстро найти нужный чертеж в папке. Быстро? Ну, пока речь идет о чертежах, которые влезают в одну папку, – да. А если это целый шкаф технической документации?
Читать дальше →
Всего голосов 36: ↑22 и ↓14 +8
Просмотры8.4K
Комментарии 11

Как технология MRC уменьшает размер PDF-документов

ABBYY
Формат PDF уже давно прижился как средство сохранения документов, которые затем не предполагается редактировать. Все PDF файлы можно условно разделить на два класса. Первый – это документы, которые были свёрстаны в цифровом виде, и затем были сконвертированы в PDF. Инструкция к какому-нибудь устройству будет, скорее всего, именно таким файлом. Внутри он выглядит как текст и графика плюс команды форматирования, описывающие, как надо располагать элементы на странице.

Второй класс – это документы, полученные в результате сканирования бумажных изображений. Их можно пропустить через ABBYY FineReader, и они превратятся в первый тип, а можно просто сохранить в PDF как картинки. И этим часто имеет смысл пользоваться, когда хочется сохранить исходный вид документа. Несмотря на то, что ABBYY FineReader довольно хорошо распознаёт документы, возникают ошибки распознавания, какие-то важные элементы на странице не находятся, в общем, то, что получается, по виду несколько отличается от исходного документа.

Поэтому часто имеет смысл сохранять в PDF изображение исходной картинки, а под него подкладывать распознанный текст для того, чтобы можно было найти документ по ключевым словам или воспользоваться copy-paste. Смущает только один момент – такие PDF-файлы имеют немаленький размер, от полумегабайта на страницу и больше. Соответственно, если отсканировать среднего размера учебник по матанализу, получится файл мегабайт на 200.

Под катом подробности и 3,5 Мб картинок
Всего голосов 80: ↑77 и ↓3 +74
Просмотры35.7K
Комментарии 27

Как технологии распознавания текста помогают бороться с утечками данных

ABBYY
На собеседованиях нас часто спрашивают, чем занимается Департамент продуктов для разработчиков. Мы коротко рассказываем про ABBYY FineReader Engine, но многие соискатели только понаслышке знают о том, что такое SDK и как его можно использовать, и воспринимают наш рассказ как общие слова.

Сегодня отличный пример того, как ABBYY FineReader Engine применяется в реальном продукте реальной компании для решения реальных проблем. Недавно российская компания SECURIT встроила FineReader Engine в свои продукты для обнаружения утечек данных (DLP), в том числе в продукт под названием Zgate. Об этом был пресс-релиз, а мы внимательно посмотрим на техническую сторону.
Читать дальше →
Всего голосов 25: ↑22 и ↓3 +19
Просмотры8.6K
Комментарии 11

Поддержка Windows Azure в продуктах ABBYY для разработчиков

ABBYY
Привет, хабрачитатель!

Сегодня у нас новость от команды, которая занимается продуктами для разработчиков. Мы добавили поддержку Windows Azure в наши SDK-решения ABBYY FineReader Engine 10 и ABBYY FlexiCapture Engine 9.0.

Windows Azure предъявляет ряд жестких требований к программному обеспечению, которое на нем работает (например, объем системной папки для временных файлов может быть не больше 100 Мб, ограничены права учетной записи, под которой выполняется код, точка входа всегда 64-битная – необходимо сопряжение с 32-битным кодом).

Мы адаптировали продукты к этим требованиям, провели тщательное тестирование и обновили техническую документацию. Лицензируйте наших слонов :)

Светлана Лузгина
при поддержке департамента продуктов для разработчиков
Всего голосов 21: ↑17 и ↓4 +13
Просмотры2.5K
Комментарии 4

ABBYY Cloud OCR SDK: публичный API распознавания в облаке Windows Azure

ABBYY
До недавнего времени в вебе наши технологии распознавания «жили» только на сайте www.abbyyonline.com, этот сервис предназначен для конечных пользователей. И вот теперь мы готовы объявить о запуске бета версии веб-API распознавания для разработчиков. Знакомьтесь – ABBYY Cloud OCR SDK, «облачный брат» уже знакомого нашим читателям ABBYY FineReader Engine.

Нам уже достаточно давно хотелось выпустить продукт, который позволял бы использовать OCR-технологии со всевозможных «тонких» и не очень устройств и всевозможных операционных систем и при этом был удобен и недорог. Надеемся, у нас это получилось. ABBYY Cloud OCR SDK предполагает оплату по мере использования, так что функции качественного распознавания становятся доступны при минимальных начальных вложениях.

Под катом мы подробнее расскажем о том, как мы над ним работали и что у нас получилось. Пока сервис находится в закрытом бета-тестировании, но мы считаем, что он уже достаточно стабилен, и стадия открытой беты всё ближе. Мы хотели бы пригласить читателей Хабра стать одними из первых «внешних» бета-тестеров ABBYY Cloud OCR SDK. О том, как получить доступ, – тоже под катом.
Читать дальше →
Всего голосов 27: ↑25 и ↓2 +23
Просмотры24.1K
Комментарии 16

Классификация документов по их внешнему виду и содержанию

ABBYYData Mining
imageСегодня мы расскажем вам, как и зачем можно применять классификаторы для разделения и сортировки разных документов по их типам.

В компании ABBYY, помимо программистов, лингвистов, аналитиков и других разных полезных людей, есть много классификаторов. Конечно, классификаторы – не люди, а алгоритмы, но они выполняют работу, без которой качественное распознавание текста невозможно. Без них не обойтись на самых разных этапах обработки документов – от нахождения зон, содержащих текст на картинках, до распознавания конкретных символов в строчках с текстом.

Но на этом работа классификаторов не заканчивается.
Читать дальше →
Всего голосов 33: ↑25 и ↓8 +17
Просмотры10.8K
Комментарии 8

Как ABBYY Cloud OCR SDK помогает ловить дешёвые авиабилеты

ABBYYРазработка мобильных приложенийAPI
Как знают наши постоянные читатели, некоторое время назад у нас появился ABBYY Cloud OCR SDK, сервис распознавания для разработчиков, «облачный брат» ABBYY FineReader Engine. Сервис работает настолько просто, что вашему редактору (тм) редко удаётся уговорить разработчиков написать про него пост на Хабр – технических подробностей не хватает на целую статью. Вот разве что был самый первый пост о бета-тестировании.

Сегодня мы расскажем, как использует сервис один из наших клиентов — Aviasales. Это один из крупнейших поисковиков авиабилетов в мире (на зарубежных рынках компания работает под именем JetRadar), в месяц им пользуется около 10 миллионов человек, а количество поисковых сессий в сутки приближается к миллиону. Уже довольно давно Aviasales, как и любой уважающий себя сервис, выпустил мобильные приложения для поиска и покупки авиабилетов.
Читать дальше →
Всего голосов 38: ↑36 и ↓2 +34
Просмотры16.5K
Комментарии 16

Готическое распознавание: как мы помогали оцифровывать Национальную библиотеку Латвии

ABBYYОбработка изображений


Сегодня мы хотим рассказать, как оцифровывали издания Национальной библиотеки Латвии. Если вы следите за нашим блогом, вы наверняка читали, как наши технологии помогают оцифровать литературное наследие разных библиотек, а также статьи, посвященные отдельным проектам — оцифровке в Сахалинской библиотеке, королевском ботаническом саду Эдинбурга и библиотеке Хартли. Сегодня история о том, как это было в Риге. Итак, Национальная библиотека Латвии – крупнейшая в стране, основана в 1919 году, обладает 4,5-миллионным собранием книг и документов, в том числе на латышском языке в уникальном готическом написании.
Читать дальше →
Всего голосов 40: ↑39 и ↓1 +38
Просмотры11.4K
Комментарии 21

Как мы помогли крупному бразильскому банку справиться с последствиями деноминации

ABBYYОбработка изображений
Новейшая история денежного обращения в Бразилии – это череда деноминаций, первая из которых была проведена в 1942 году, а последняя – в 1994 году. К 1994 году национальная валюта Бразилии – крузейро – была настолько слабой, что в магазинах цены назначались в условных единицах, рядом с цифрами писали слово “real” – «настоящая» цена. В 1994 от лишних нулей решили избавиться, а слово “real”, к которому все привыкли, стало названием новой валюты – реал (впрочем, точно так же называлась денежная единица Бразилии до 1942 года).

Сегодня мы расскажем, как один из наших продуктов – ABBYY FineReader Engine помог крупнейшему частному бразильскому банку справиться с последствиями деноминации. Не представляете, как такое может быть? Добро пожаловать под кат.
Читать дальше →
Всего голосов 53: ↑53 и ↓0 +53
Просмотры15.6K
Комментарии 19

Как технологии ABBYY помогают улучшить работу систем обнаружения утечек данных

ABBYYИнформационная безопасностьОбработка изображений
Несмотря на прогнозы о скором наступлении светлого безбумажного будущего, объём бумажных документов всё ещё огромен. Часть из них сканируется и продолжает свою «жизнь» уже в электронном варианте – но только в виде изображений. В среднем в организациях объем сканированных копий составляет 30% от всех документов, которые хранятся в электронном виде. В госсекторе он достигает 41,5%, в ритейле – 17%, в сфере услуг – 23%, в банках и телеком-сфере приближается к 45%. Когда сканы документов лежат себе в нужной папке или делают работу, для которой они предназначены, – это хорошо. Плохо, когда кто-то пытается использовать данные из этих сканов в мошеннических схемах или как-то иначе злоупотреблять ими. Чтобы конфиденциальная информация не «утекла», в информационные системы компаний устанавливают DLP – системы предотвращения утечек.

Сегодня мы расскажем, как в одну из таких программ – Контур информационной безопасности SearchInform – был интегрирован SDK-продукт ABBYY FineReader Engine и что из этого получилось.
Читать дальше →
Всего голосов 34: ↑33 и ↓1 +32
Просмотры8.8K
Комментарии 7