Pull to refresh

Comments 2

Спасибо, интересная статья. Пару раз я делал подобные сервисы, причем не только исправления орфографии, но пунктуации и стилистики. Идея была немного другая. Сначала работал Hanspell с хорошо переработанными словарями. Но Hanspell выдает несколько вариантов на слово. А вот вариант выбирается языковой моделью. В пунктуации работал алгоритм, похожий на Symspell. До «продакшн» сервисы не дошли. Проблемы: во-первых, слишком неповоротливы (perfect hash я тогда еще не знал, лет 7 назад это было). Во вторых, проблема неизвестных слов. Если слова нарицательные можно учесть почти все, то имена собственные — открытое множество, растущее почти линейно. А система все рано пытается заменить неизвестное слово на ближайшее. Моделями, даже с хорошим сглаживанием, можно убрать наиболее частотные ошибки, но всех комбинаций модель учесть не может. А точность, которую желает видеть потребитель, должна быть не менее 95%.
Занимался подобной задачей некоторое время назад. Алгоритм Норвига удалось ускорить без потери качества оперевшись на предположении, что люди чаще совершают опечатки нажимая на соседние клавиши.
Sign up to leave a comment.

Articles

Change theme settings