Comments 6
Поясните, пожалуйста, этот момент:
у меня с этими данными получается не 20%, а 2% и не более, а менее.
удалось повысить качество распознавания по этим полям более чем на 20% (с 91.41% до 93.12%)
у меня с этими данными получается не 20%, а 2% и не более, а менее.
0
Обычно в научной литературе под улучшением качества подразумевается процент уменьшения ошибок.
0
Привет, капитан. «Мы пробуем все варианты неоднозначно разобранных цифр и смотрим, сошлась ли контрольная сумма». Что-ли есть другие варианты использования контрольной суммы? Либо пытаться исправить ошибку, либо о ней сигнализировать.
Посчитали бы, например, вероятности — вероятность исправить правильно, вероятность исправить неправильно — в зависимости от вероятности неправильно распознанного символа (с учетом того, что контрольный тоже может быть неверным), вероятность правильности до исправления, вероятность после. Или рассмотрели поближе код, который в ИНН используется — вдруг там можно без полного перебора определить правильное исправление, если, например, предположить, что ошибка только в одном символе.
Я почему придираюсь (к статье, не к авторам) — написано очень наукообразно, а суть простая. Если бы все это рассказать нормальным языком, то статья бы хорошо читалась — описывать несложные вещи тоже полезно.
Посчитали бы, например, вероятности — вероятность исправить правильно, вероятность исправить неправильно — в зависимости от вероятности неправильно распознанного символа (с учетом того, что контрольный тоже может быть неверным), вероятность правильности до исправления, вероятность после. Или рассмотрели поближе код, который в ИНН используется — вдруг там можно без полного перебора определить правильное исправление, если, например, предположить, что ошибка только в одном символе.
Я почему придираюсь (к статье, не к авторам) — написано очень наукообразно, а суть простая. Если бы все это рассказать нормальным языком, то статья бы хорошо читалась — описывать несложные вещи тоже полезно.
0
Забавно, ИНН нетрудоспособного юрлица :)
Я вам подкину идей для ОГРН:
— установите вероятность первой цифры равной 1 до 0,95 и 0,05 для 5
— второй цифры равной 0 до 9/14=0,64 и 0,36 для 1
— также вероятность сочетания второй и третьей цифры можно соотнести со статистикой по количеству регистрации юрлиц из вестника госрегистрации или из статрегистра.
— запилите справочники кодов инспекций по регионам
Еще можно сделать проверку существования ИНН и ОГРН в онлайне у стороннего поставщика данных Статрегистра или ЕГРЮЛ — это вообще повысит качество до 0,999 если применять ИНН и ОГРН в паре и с учетом наименования юрлица.
Я вам подкину идей для ОГРН:
— установите вероятность первой цифры равной 1 до 0,95 и 0,05 для 5
— второй цифры равной 0 до 9/14=0,64 и 0,36 для 1
— также вероятность сочетания второй и третьей цифры можно соотнести со статистикой по количеству регистрации юрлиц из вестника госрегистрации или из статрегистра.
— запилите справочники кодов инспекций по регионам
Еще можно сделать проверку существования ИНН и ОГРН в онлайне у стороннего поставщика данных Статрегистра или ЕГРЮЛ — это вообще повысит качество до 0,999 если применять ИНН и ОГРН в паре и с учетом наименования юрлица.
+1
Sign up to leave a comment.
Распознавание изображений документов с использованием алгоритма «рулетки»