Комментарии 21
по поводу туманной учености — Вы уверены? Или это только догадка? Может дадите ссылочку на комментарии к Онегину?
Зачем тэг nlp? Имхо НЛП это несколько иное. И слово программирование в аббревиатуре к IT особого отношения не имеет
Обработка естественного языка (Natural Language Processing, NLP). Вот такая полисемия.
… а также НЛП = Нейро-Лингвистическое Программирование =)
И верно и не верно. NLP (не НЛП) — это тоже термин и из IT, и из психологии. NLP — Natuarl Language Processing — термин, устоявшийся за многие годы компьютерной лингвистики и области IT, занимающейся извлечением информации (information retrieval). Ну а так же это конечно нейролингвистическое программирование.
Но данный акроним на хабре использовался лишь для топиков, относящихся к компьютерной лингвистике. Так, что если дополнительных аргументов нет — я буду продолжать его использовать. Уж больно удобное сокращение (хоть и двусмысленный иногда).
«Он из Германии туманной учёности привёз плоды»
Если бы слова были расположены, как я привел выше, то можно было бы еще говорить, с большой натяжкой, про туманную учёность, но в данном случае, думаю, Пушкин назвал туманной как раз Германию, но подразумевал не страну в тумане, как Англию, а страну неведанную, мутную, туманную…
Все это наверняка есть в комментариях к «Евгению Онегину» — нет книжки под рукой.
9 — Он из Германии туманной… — В такой редакции стих связывал образ Германии с романтизмом. Эта связь установилась со времени выхода книги де Сталь «О Германии» (1810). Первоначальная формула «из Германии свободной» (VI, 267) выделяла другие ассоциации: брошюру А. С. Стурдзы (см. с. 20) о Германии для членов Аахенского конгресса, в которой автор обвинял германские (в частности Геттингенский) университеты в распространении в Европе революционного духа (ср. эпиграмму П «Вкруг я Стурдзы хожу» — II, 1, 94) и тираноборческий акт немецкого студента К. Занда, убившего А. Коцебу. Ср. слова П о Занде: «В твоей Германии ты вечной тенью стал» (II, 1, 174).
www.all-art.org/literature/onegin/2.htm

Так что ошибаетесь! Может это и не имеет прямого отношения к теме статьи, но все-таки.
А Вы уверены, что те, кто толковал творения Пушкина, до конца понимал его идею? =) Тут скорее впору рассматривать оба варианта как имеющие право на жизнь. А также нельзя забывать о том, что данное сочетание могло использоваться и для первого, и для второго случая сразу.
Порой задумываюсь о том, что было бы здорово, если бы всё население планеты разговаривало на одном и том же языке — например английском. Быть может тогда ввиду относительной простоты языка и сосредоточению усилий проблема извлечение фактов в частности и анализа текста в целом была бы уже решена.
>Синтаксические структуры (естественного языка в автоматизированных системах общения)
Это только болтик в обшивке космического корабля под названием атоматическое извлечение фактов.

Главное поймите, что МЫ с вами разговариваем на естественном языке, а понимаете ВЫ меня на формальном. А синтаксические структуры это только часть языка.
Хотела бы узнать, использовали ли вы на практике HMM для борьбы с омонимией?

А кроме омонимии и синонимии эти ми же методами можно решать другие задачи по выявлению особенностей текстовых корпусов?

И если можете привести какие-то доводы, какой из Вами перечисленных методов борьбы с омонимией даёт лучший результат и несколько соображений почему?
Т.е. от чего зависит выбор того или иного метода?

Вопрос прямо по существу.
Попробую ответить так же:
  1. Использовал HMM как средство борьбы с омонимией (был в своё время проект на C). Но в связи с недостатком размеченных данных для обучения он слишком часто давал сбои на русском тексте. Подняв его сейчас и «обучив» доступными данными точность предсказания можно было бы поднять до приемлемой. Но я пошёл другим путём – омонимию снимаю на более высоком уровне.
  2. HMM можно использовать как средства выявления ошибок/опечаток, для определения авторства текста (на более-менее больших объёмах), при распознавании текстов можно использовать как средство корректировки ошибок распознавания (те же очепятки). Но сам этим никогда не занимался.
  3. Лучший результат, конечно, даст разрешение на более высоком уровне с использованием контекста и анализом синтаксиса предложения. Но готовых сравнительных данных нет – модуль в работе (и готов будет не скоро). Но у него есть и свои минусы: скорость работы, сложность самого алгоритма, необходимость описания правил.
Спасибо! Интересно услышать как вы повышали точность
«Подняв его сейчас и «обучив» доступными данными точность предсказания можно было бы поднять до приемлемой» — за счет учёта большего числа предшествующих слов, т.е. пошли в триграммы и.т.д.?

«до приемлемой» — можно в личку, какая приемлемая вышла?
Вот что делает невнимательность! Фраза была «Подняв БЫ его…»
Я забросил HMM таггер года 2 назад. Тогда корректно разрешалось около 60% неизвестных слов. Знаю, что сейчас HMM таггеры работающие на триграммах достигают правильного разрешения 80-85% неизвестных слов. Для английского – 95-98%.
Текущий алгоритм разрешает около 25-30% неизвестных слов (надеюсь это связано с его недоделанностью, а не с ошибкой в самой идее).
Спасибо за ответ! Приблизительно такие цифры я и ожидала увидеть.
Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.