kmike 18 янв 2009 в 07:21

Кузявые ли бутявки, т.е. пишем морфологический анализатор на Python

8 мин

54K

Python*

+103

Комментарии 44

Alaunquirie 18 янв 2009 в 09:00

Интересная статья, спасибо. Порадовал простой и логичный подход, с которым отнеслись к делу, и получили простую функциональность, в принципе, простыми методами.

It's just simple working )

Kron0S 18 янв 2009 в 09:23

а что за проект, если не секрет?

kmike 18 янв 2009 в 10:25

tr-tr.ru/
но там только экспортированный из fireworks набросок дизайна)
надеюсь, что подробнее расскажу попозже, когда придет время.

drJonnie 18 янв 2009 в 09:31

как в питоне можно узнать количество занятой текущим процессом памяти. По возможности кроссплатформенно как-нибудь.

Кросплатформенно никак. Пример кода под unix можно посмотреть в Measurement techniques в Efficient String Concatenation in Python.

kmike 18 янв 2009 в 10:27

Спасибо, примерно то, что надо.

Irokez 18 янв 2009 в 09:33

делал аналогичное, даже послал в проект, они его загрузили к себе: www.aot.ru/download.php (в конце страницы: Alexander Pak's Morphology)
для питона есть очень мощная библиотека для обработки естественного языка: NLTK — www.nltk.org/

kmike 18 янв 2009 в 10:23

Ваш пример меня вдохновил, Вы, можно сказать, первопроходец в этом деле) Однозначно в карму +.
Но писал с нуля, т.к. мне так было проще.
А NLTK — это, насколько мне известно, только английский язык, был интересен именно русский.

Irokez 18 янв 2009 в 10:34

спасибо :)
По поводу NTLK — по-моему, если в него загрузить грамматику и словари для русского языка, то можно работать и с русским. Другое дело, что для русского нет нормальных словарей, и АОТ — действительно, наиболее развитый открытый источник.

kmike 18 янв 2009 в 10:48

Насчет NTLK мне показалось, что там не совсем так. В ней куча примочек для синтаксиса, статистики и анализа текста, но, что касается именно морфологии, максимум, что я увидел — стеммер Портера, с некими планами добавления Snowball. Думаю, просто для английского языка это не самая актуальная задача, у них и стеммеры работают более-менее нормально для большого круга задач.

Irokez 18 янв 2009 в 11:00

Лемматизацию, к примеру, можно выполнить через интерфейс к WordNet базе, там для каждой словоформы хранится лемма. Проблема опять таки в словаре, проект русского ворднета — project.phil.pu.ru/RussNet/ либо умер либо очень медленно развивается.

kmike 18 янв 2009 в 11:04

Спасибо, познавательно.

Iskin 18 янв 2009 в 09:51

Отличная статья — куча важной информации.

Smerig 18 янв 2009 в 11:54

Бутявки не кузявые, от бутявок дудонятся

kzn 18 янв 2009 в 12:07

Спасибо, очень интересная статья!

С морфологическим анализом есть несколько тонкостей:
1. Неявно присутствует шаг нормализации текста. — Что считать словом и т.д.
2. У Вас м.а. основан на словарях (и в общем-то это правильно), и следовательно, качество м.а. зависит от словаря.
3. Сам по себе анализ слова — не такая сложная вещь. Гораздо сложнее тонкости вида анализа аббревиатур, сложных слов вроде автошкола или бетономешалка(в зависимости от словарей это одно или два слова), а так же проверка корректности вариантов разборов.

Ну и для хранения словарей намного эффективнее использовать DAWG(directed acyclic word graph), ну или если лень писать, то trie. 150M для морфологии — это черезчур :)

kmike 18 янв 2009 в 17:23

Ага, тут неявно подразумевается еще какой-то код, который разберет текст на слова. И что при разборе он вполне может выудить еще часть информации, например, из того, где стоит это слово (например, сразу после точки) и какие в нем буквы — первая заглавная, все заглавные или все строчные.
Тоже думал, что вместо хэшей деревья/графы какого-то рода будут лучше (за наводку на DAWG и trie спасибо, даже, скорее всего, постараюсь прикрутить, как время будет). Просто изначально была позиция делать все максимально просто и «тупо», если результат не будет устраивать, включать голову. Поэтому и на словообразование «забил», оставив такие слова на растерзание предсказателю по префиксу (авто-школа, хотя тут пример не совсем правильный, слово в словаре). Тем более что словообразования ни в lemmatizer, ни в phpmorphy тоже нет, выезжают на словаре (насколько я знаю).

А вот с проверкой корректности и правда что-нибудь придумать бы, «глазами» можно многого не увидеть. Пока вот решил просто попробовать увеличить число «глаз», выложив тут это все хозяйство.

AChaplygin 18 янв 2009 в 12:26

Респект. Ход мыслей отличный. Красиво :) И «Пуськи бятые» очень порадовали. :)

НЛО прилетело и опубликовало эту надпись здесь

Chikiro 18 янв 2009 в 13:36

>Из текста предсказатель не справился с именем собственным Калуша, с «Калушата»(они стали мужиками «Калуш» и «Калушат»)
«калушата» — это не имя собственное, это «калушонок» во множественном числе, слово образовано от «Калуша», с помощью "-онок" (не помню точно, вся ли эта часть суффикс), во множественном числе превращается в «калушата». (можно сравнить: «зайчонок — зайчата»). А имена собственные всегда с большой буквы пишутся.

«зюмо» — это наречие (сравните с «далеко», «высоко», «хорошо»), а удвоение для усиления используется.

Спасибо за интересную статью, хочу заниматься чем-нибудь на стыке программирования и лингвистики, но пока серьезных знаний ни в первом, ни во втором не хватает.

vinni 18 янв 2009 в 13:47

А какое количество слов можно разобрать с помощью словаря?

kmike 18 янв 2009 в 17:30

Там около 140тыс. лемм, 2700 парадигм слов, 170тыс. (насколько я помню) правил образования слов.
В итоге выходит около 5 миллионов уникальных слов в словаре.

DaHacka 18 янв 2009 в 14:10

очень интересная и сложная предметная область, учитывая многообразие русского языка :)

niksite 18 янв 2009 в 14:42

О, спасибо. А то я планировал lemmatizer`ом пользоваться из питоньих программ. А тут, оказывается, уже нативная реализация готова.

kmike 18 янв 2009 в 17:45

у lemmatizer'а свои плюсы: скорость, надежность.
у pymorphy — простота, расширяемость
Если для Ваших нужд подойдет pymorphy, то это здорово.

niksite 18 янв 2009 в 14:47

По hg.assembla.com/pymorphy отдаётся HTML`ка с Content-Type: text/plain. Это не хорошо.
На главной странице (http://www.assembla.com/wiki/show/pymorphy ?) прошу указать команду для установки последней версии (hg fetch… ?).

kmike 18 янв 2009 в 17:42

hg clone http://hg.assembla.com/pymorphy

Написал там в вики про установку.

kmike 18 янв 2009 в 18:46

с text/plain — какой-то баг ассемблы.
По идее, у hg веб-интерфейс с html-страничкой, на которой можно посмотреть историю, отдельные изменения — и скачать все целиком в архиве.

michurin 18 янв 2009 в 15:52

Спасибо, очень интересно.
Я знал ребят, которые знаимались такими вещами, они широко использовали словарь Лебедева scon155.phys.msu.su/eng/lebedev.html, там есть файл с правилами образования совоформ russian.aff, может быть он и вам пригодится.

Lesanol 18 янв 2009 в 16:42

Может-быть кому-то пригодится содранный с интернета ботом словарик для имён.
Старался, вроде там довольно много понабралось.
Кому понравится — отпишитесь. :)
(UTF-8)
slil.ru/26554601

peterdemin 18 янв 2009 в 18:16

Смешной. Нашел Петруслава, а Петр не нашел…

Lesanol 18 янв 2009 в 18:24

Баги. Баги, баги, баги… Спасибо, будет исправлено!

peterdemin 18 янв 2009 в 18:15

В encode_dicts.py пришлось заменить одну функию:

def convert_file(in_file, out_file, in_charset, out_charset):
text = codecs.open(in_file, «r», in_charset).read()
codecs.open(out_file, «w», out_charset ).write(text)

kmike 18 янв 2009 в 18:32

Cпасибо, так и правда лучше, закоммитил.
P.S. репозиторий открыт на запись для всех, кто зарегистрирован на assembla.

peterdemin 18 янв 2009 в 19:51

Постараюсь помочь с развитием проекта. Но как мне видится, это скорее будет форк, заточенный под мои нужды.

joedm 18 янв 2009 в 21:27

Забыли сказать, что Бутявку придумала Людмила Петрушевская, в далёком 1984-м году.

VlK 19 янв 2009 в 11:36

Вот мне интересно… А в каких-нибудь больших опенсорсных проектах использовались серьезные анализаторы грамматики?

Скажем в OO.Org? Я не влезал никогда глубоко в эту тему; но вроде там только чисто орфографическая проверка слов по словарю в наличии, а более глубокой проверки как в Ms Office — нетуть. Или это я от жизни отстал?

Error_403_Forbidden 15 июн 2009 в 02:13

А здесь поддерживается буква Ё?

kmike 1 апр 2013 в 16:18

здесь не очень (просто заменяется на е), в github.com/kmike/pymorphy2 — полностью

javascript 10 авг 2011 в 10:41

mystem предлагает следующую тестовую строку:
«В мурелки шлепают пельсиски. В стакелках светится мычай.»
пельсиски — наречие

А я взял в качестве тест-кейсов русские скороговорки:

Карл у Клары украл кораллы, а Клара у Карла украла кларнет.
кларнет — глагол
Курил турка трубку, клевала курка крупку: не кури, турка, трубки, не клюй, курка, крупки!
клевала — существительное
кури — существительное
клюй — существительное
Наши поезда — самые поездатые поезда в мире, и никакие другие поезда не перепоездадят наши поезда по поездатости.
поездатые — глагол

Почти круто, всегда можно немножко доработать :-)

samodum 1 апр 2013 в 13:58

Кстати, наш морфологический анализатор данные тесты хорошо проходит:
samodum.ru/Morpho/Demo

kmike 1 апр 2013 в 16:29

Не очень интересно: снятия неоднозначности нет; слова, записанные через дефис — не разбираете правильно («человек-акула», «скажи-ка»); не open-source; словари такие же неполные, как и везде («алешенька» — женский род), склонятора нет (видимо, временно?). Не представляю, кому может понадобиться «голый» морфологический разбор в виде сервиса.

Я, понятно, лицо заинтересованное, но в github.com/kmike/pymorphy2 и словари лучше, и предсказатель умнее, и open-source все.

samodum 1 апр 2013 в 16:42

Это первый уровень, морфологический. Неоднозначность здесь и не должна сниматься.
Она снимается на последующих уровнях — на синтаксическом и семантическом.

FantomNotaBene 17 июл 2016 в 23:06

"Алёшенька" по мнению pymorphy2 — вообще краткое прилагательное женского рода.

Parse(word='алёшенька', tag=OpencorporaTag('ADJS femn,sing'), normal_form='алёшенек', score=0.6976744186046512, methods_stack=((<FakeDictionary>, 'алёшенька', 391, 1), (<KnownSuffixAnalyzer>, 'енька')))

А вот тут очень даже неплохо:

Parse(word='человека-акулы', tag=OpencorporaTag('NOUN,anim,masc sing,gent'), normal_form='человек-акула', score=0.4376812425457545, methods_stack=((<HyphenatedWordsAnalyzer>, ((<DictionaryAnalyzer>, 'человека', 488, 1),), ((<DictionaryAnalyzer>, 'акулы', 53, 1),)),))

Вам однозначно огромный + за проделанную работу.

weirded 10 янв 2016 в 13:56

Только что хотел написать «вот вам делать нечего было, писать свой костыль, когда есть pymorphy2» и тут ВНЕЗАПНО, это статья ещё на первую версию.
kmike, огромное Вам спасибо за эту замечательную библиотеку!

kmike 13 янв 2016 в 13:00

Хаха, спасибо!

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

Кузявые ли бутявки, т.е. пишем морфологический анализатор на Python

Комментарии 44

Публикации

Истории