Как стать автором
Обновить

Комментарии 21

Просто для интереса, а сторонняя компания может сделать сама поддержку новых графем, или всё завязано на вас?
Вы имеете в виду сделать сама поддержку и интегрировать с нашим продуктом?
сделать поддержку без интеграции, используя SDK
Растровый классификатор можно обучать пользовательским эталонным изображениям символов. В продукте (ABBYY FineReader Engine) это называется User Patterns Training.

Позволяет обучить OCR в общем случае произвольному изображению какого-либо символа или группы символов.

Есть ограничения:

• Шрифт и условия сканирования при обучении и распознавании должны совпадать. Никакой «омнифонтовости».
• Китайский, корейский и японский языки не имеют такой возможности.
• Встроенный механизм деления на символы должен довольно надежно отделять целевую графему от прочих.
Если нужен какой-то экзотический язык, то можно воспользоваться CuneiForm (переводится как «клинопись») CuneiForm в Вики и исходный сайт.. Для неё есть пакет cuneiform-data, т.е. всё открыто.
Вот у меня:
$ apt-cache search cuneiform
cuneiform — Программа распознавания символов (OCR) Cuneiform, Linux-версия
cuneiform-qt — GUI frontend for Cuneiform OCR
yagf — Оболочка YAGF предоставляет графический интерфейс для консольных программ распознавания тектов cuneiform и tesseract
cuneiform-data — Поддержка различных языков и другие файлы с данными для OCR Cuneiform
Национальная библиотека Латвии – крупнейшая в стране, основана в 1919 году

На кдпв изображено новое здание библиотеки, построенное пару лет назад. Так называемый «Замок Света». Не путайте людей, в 1919 у нас такое бы не построили…
Здание библиотеки и сама библиотека — как организация — немного разные вещи
Библиотека-учреждение и библиотека-здание — две разные вещи. В данный момент учреждение находится в Замке Света, не вижу путаницы.
Вот смотрю я на ваши сканы… А где все гарумзими? Латышские тексты обычно ими кишат.
Правописание довольно сильно поменялось в начале XX века. Сравните третью строчку на третьем скриншоте: «schee wilkahs Schlesijâ eekschâ un gribbeja to» с современным «šie vilkās Šlezijā iekšā un gribēja to» (точнее, Silēzijā, но это уже не про буквы). Если правильно понимаю, в готическом написании гарумзиме ставились только на концах слов в локативе, в середине же обходились добавлением «h» после гласной. В то же время букв со знаками смягчения («ņ», «ķ») в том же тексте полно.
Интересное наблюдение. Но вообще, думаю вы согласитесь, что готический текст больше похож на современный немецкий (к примеру), чем на латышский.
Само собой, на то были очевидные исторические причины.
Не мало материалов так же было отредактированно (поправлено) вручную,
сайт-каталог periodika.lv даёт возможность отредактировать оцифрованный материал.

Например самый активный пользователь Aigars Liepiņš сделал 6086 изменения,
а вообще вот топ изменений ссылка
Немало материалов также было отредактированно (поправлено) вручную, сайт-каталог periodika.lv даёт возможность отредактировать оцифрованный материал.

Например самый активный пользователь Aigars Liepiņš сделал 6086 изменения, а вообще вот топ изменений http://periodika.lv/#userTops;content=editors;timeRange=allTime
А с чуть более современным латышским разбирались? Я оцифровывал несколько документов 40-х годов. Тогда использовались буквы, которых уже нет сейчас и в шрифтах я их не смог найти. К примеру, есть брошюра «ТРИ ГОДА ОТЕЧЕСТВЕННОЙ ВОЙНЫ СОВЕТСКОГО СОЮЗА (военные и политические итоги).» 1944 года на латышском и в ней используется мягкая буква «R» (с запятой под ней, как "Ķ"). Возможно есть шрифты в которых такие буквы можно найти?
Ŗŗ, Ōō ;)
Вообще, ради этих двух букв я как-то раз и сделал letters.ernt.lv. Ну, делал ради этих, но слегка увлёкся…
Эти символы мы распознавать умеем, они есть у нас в языке Latvian Gothic
НЛО прилетело и опубликовало эту надпись здесь
А можете дать ссылочку где хорошо описан омнифонтовый классификатор? И ещё про дифференциальный не совсем понял, зона с отличиями для близких символов жёстко прописывается? И что, собственно, дальше с этой зоной делают?
В нашем же блоге была пара статей про устройство нашего распознавания.
Первая часть и вторая часть. Вам нужна больше вторая часть. Только омнифонтовый классификатор там назван байесовским, чтобы быть более приближенным к стандартной терминологии.
У нас есть несколько классификаторов, построенных следующим образом: выбираем много (порядка сотни) базовых признаков, собираем из них вектор, объявляем такие вектора нашим пространством признаков и строим на них байесовский классификатор
Это как раз про омнифонтовый классификатор (в самой статье сильно больше написано).
Про устройство дифференциального классификатора там тоже отдельный раздел, название в этом случае совпадает :)
Зарегистрируйтесь на Хабре, чтобы оставить комментарий