Как стать автором
Обновить

Комментарии 4

Полосы стали красными. Полосы стали красными реками текли по конвееру трубопрокатного завода.
Но можно же не только «предыдущие n тэгов», но и все теги в этом предложении.
Разумеется. Можно использовать не последние 1 или 2 слова, а 3 и больше. Но это потребует более крупного объёма обучающих данных. В противном случае каких-то комбинаций просто не будет и тэггер будет выдавать нулевую вероятность или вероятность однажды встреченной комбинации. Плюс большое время обучения тэггера думаю при увеличении размера «хвоста» время будет увеличиваться на порядке. Плюс увеличится время работы самого тэггера. Тут приходится выбирать между минусами и точностью «предсказания» в зависимости от конкретных требований к работе тэггера.
Да и ситуация в России с размеченными корпусами гораздо хуже, чем в остальных странах. Их просто мало.
Этот вопрос мы можем легко разрешить с использованием размеченного корпуса (например «ruscorpora.ru»).

А вы пробовали это сделать? Он доступен только для онлайн-поиска. Для таких задач ruscorpora.ru бесполезен. Там пишут «Какие-либо оффлайновые версии корпуса пока недоступны, но работа в этом направлении ведётся.» И еще «Национальный корпус русского языка © 2003–2010»

Внушает оптимизм, короче говоря.

Из-за отсутствия размеченного корпуса у меня была идея обучать систему на самой себе — на словах, где омонимии нет. Думаю, должно сработать.

NLP на хабре представлена довольно односторонне — почти исключительно теория, как будто авторы статей по ходу разбираются с алгоритмами и пишут свои мысли о них. Практическое направление — написание парсеров, модулей синтаксического разбора, модулей снятия омонимии и т.д., развито как-то не сильно.

Если интересно покопаться в практике — все welcome to pymorphy (документация). Это, конечно, нескромно, но я считаю, штука удобная и довольно простая, алгоритм работы документирован и откомментирован, разработка открыта и ведется по-современному. Актуальные задачи — автоматизация тестирования качества разбора (за это, надеюсь, скоро возьмусь, есть для этого очень хороший материал), исправление ошибок (есть там в issue-трекере), создание модуля снятия омонимии (дизамбигуации) или прикручивание как tagging-модуля к nltk. Задачи непростые, но вполне решаемые и интересные, если кто-нибудь заинтересуется, разберется и поможет — огромный респект.

Кстати, pymorphy показал себя очень хорошо на недавно прошедшей ru-eval.ru/participants.html, по качеству разбора находясь в лидерах — а в одной из номинаций даже справившись лучше всех (уступая, правда, большинству по скорости, но на этом этапе imho важнее точность алгоритмов и простота модификации).

Да, статья понравилась.

Вот еще интересная ссылка в список литературы: www.aot.ru/docs/RusCorporaHMM.htm
А вы пробовали это сделать? Он доступен только для онлайн-поиска.

Надо сказать тут Вы меня поймали.
В своей разработке я не использую HMM – хоть это и сильно бьёт по производительности.
Послав в своё время запрос в «ruscorpora» по поводу предоставления доступа к их данным не через веб-интерфейс, мною был получен следующий ответ:
Просим прощения за поздний ответ.

Пока мы не выдаём Национальный корпус или его части для оффлайновой обработки, но мы работаем над соответствующей лицензией. Как только она появится, мы Вам сообщим.

С уважением,
разработчики Национального корпуса.

Не сказать, чтобы это был неожиданный ответ. Возможно, мы в своё время и получим доступ к их данным с использованием другого интерфейса но, скорее всего это потребует раскрытия кода продукта, либо части ответственной за морфологический анализ.

Мы в своё время с коллегами рассматривали вопрос о формировании собственного корпуса (с ограниченным доступом через веб-сервисы SOAP/REST), сформированного с использованием собственного морфоанализатора, но для этого его ещё требуется довести до ума и поднять скорость работы. Вопрос отложили до мая 2011.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Изменить настройки темы

Истории