fedor_malyshkin 28 окт 2010 в 18:21

Использование статистических методов для генерации парадигмы по каноническим формам новых слов

3 мин

915

Чулан

Комментарии 9

slimper 28 окт 2010 в 18:26

Это Вы из Яндекс.Рефераты скопировали?

fedor_malyshkin 28 окт 2010 в 18:34

? Извольте, сударь, объясниться.

slimper 28 окт 2010 в 18:38

Насыщенность текста специфическими, профессиональными словами, отсутвтие вводной части и ссылок — все это сильно напоминает текст из vesna.yandex.ru/.

slimper 28 окт 2010 в 18:40

Ну вот, текст обновили, а было-то два-три абзаца сухого текста, без пояснений. Неподготовленный текст надо было в черновике держать.

fedor_malyshkin 28 окт 2010 в 18:45

См. коммент про глюк — отправил оригинальный текст в саппорт.

fedor_malyshkin 28 окт 2010 в 18:41

Наверно, да, но переписывать статью наверно уже поздно, лучше предоставлю ссылку на предыдущие части — www.nlp-project.ru/

fedor_malyshkin 28 окт 2010 в 18:39

Кстати странный глюк — тэги «table» и «pre» внутри тэгов «li» не видны (как и их содержимое).

kmike 29 окт 2010 в 01:30

А как была получена цифра 85% — проверяли 1000 слов вручную? Или как-то автоматизировали этот процесс? Поделитесь тестовыми данными?

Хранить все слова в словаре в явном виде (и тем более генерировать незнакомые словоформы для хранения) — идея, конечно, странная. Но было бы интересно сравнить (по качеству) такой предсказатель «на статистике слогов» с предсказателем на префиксах и суффиксах, который используется в том же lemmatizer или pymorphy.

fedor_malyshkin 29 окт 2010 в 11:01

Проверить вручную 1000 записей оказалось не так сложно. Заняло это порядка 2-3 часов (почти нечего по сравнению с 3 днями основной работы).
В явном виде хранятся для решения проблем чередования букв в корне при склонениях и подобных проблем.
Но не хочу вводить в заблуждение — ЭТА база используется лишь для хранения оригиналов, простоты редактирования и для облегчения сбора статистики. Для работы морф. модуля строится специальное дерево.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

Использование статистических методов для генерации парадигмы по каноническим формам новых слов

Комментарии 9

Публикации

Истории