Как стать автором
Обновить

Комментарии 9

Это Вы из Яндекс.Рефераты скопировали?
? Извольте, сударь, объясниться.
Насыщенность текста специфическими, профессиональными словами, отсутвтие вводной части и ссылок — все это сильно напоминает текст из vesna.yandex.ru/.
Ну вот, текст обновили, а было-то два-три абзаца сухого текста, без пояснений. Неподготовленный текст надо было в черновике держать.
См. коммент про глюк — отправил оригинальный текст в саппорт.
Наверно, да, но переписывать статью наверно уже поздно, лучше предоставлю ссылку на предыдущие части — www.nlp-project.ru/
Кстати странный глюк — тэги «table» и «pre» внутри тэгов «li» не видны (как и их содержимое).
А как была получена цифра 85% — проверяли 1000 слов вручную? Или как-то автоматизировали этот процесс? Поделитесь тестовыми данными?

Хранить все слова в словаре в явном виде (и тем более генерировать незнакомые словоформы для хранения) — идея, конечно, странная. Но было бы интересно сравнить (по качеству) такой предсказатель «на статистике слогов» с предсказателем на префиксах и суффиксах, который используется в том же lemmatizer или pymorphy.
Проверить вручную 1000 записей оказалось не так сложно. Заняло это порядка 2-3 часов (почти нечего по сравнению с 3 днями основной работы).
В явном виде хранятся для решения проблем чередования букв в корне при склонениях и подобных проблем.
Но не хочу вводить в заблуждение — ЭТА база используется лишь для хранения оригиналов, простоты редактирования и для облегчения сбора статистики. Для работы морф. модуля строится специальное дерево.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории