rg_software Jan 3 2010 at 19:13

Заметки об NLP (часть 6)

6 min

3.5K

Artificial IntelligenceNatural Language Processing*

+38

Comments 24

nayjest Jan 3 2010 at 20:58

С нетерпением жду продолжения! И не обращайте внимания на популярность топиков, как по мне — сейчас самое интересное началось!

gbezyuk Jan 3 2010 at 22:22

Поддерживаю.

qmax Jan 4 2010 at 03:42

да и на карму автору тоже стоит посмотреть :)

на фоне топиков типа «поработит ли нас искуственный разум», эта серия статей весьма конструктивна.

rg_software Jan 4 2010 at 04:37

ОК, оставим этот вопрос — я мимоходом упомянул, не будем сосредотачиваться на мелочах в то время как есть темы посерьёзнее и поинтереснее :)

Antigluk Jan 3 2010 at 23:14

Интересная серия статей.
Популярность — думаю, из-за частоты выхода статей. по 2-3 статьи в день думаю, многовато.
А статьи занимательные, да. С удовольствием читаю.

UFO just landed and posted this here

SergeyProkofiev Jan 4 2010 at 03:14

Совсем не утомили, наоборот, нечего размазывать по «раз в неделю».

varagian Jan 4 2010 at 03:50

Сейчас заметил, что во время прочтения цикла и перехода по ссылкам пальцы застыли на ctrl+D

qmax Jan 4 2010 at 04:06

а «добавить в избранное» на самом хабре не устраивает?

qmax Jan 4 2010 at 04:05

вродебы где-то у автора проскакивала идея способа обобщения правил,
позволяющего объединить в один кластер слова
«eat», «eats», «eated», «will eat»,
и далее вплоть до того, что
dim syn {in: {root} out: {subj obj adv*}}} указывается для всех переходных глаголов
dim syn {in: {root} out: {subj adv*}}} для всех переходных глаголов

без кластеризации пришлось бы описывать грамматические свойства для всех возможных словоформ языка.
например, для славянских, это будет неимовернейше дофигищща.

rg_software Jan 4 2010 at 04:36

В XDK вроде бы есть какая-то рудиментарная поддержка морфологии, но для случаев сложнее английского это точно не работает.
По поводу обобщений «eats» с формами — не помню, но верю. Классы слов («переходные», «непереходные») точно поддерживаются.

А вот по поводу «дофигищща» — как раз это меня не напрягает.
Допустим, есть скрипт, который на основании вывода морф. анализатора генерирует требуемые правила.
Реально для разбора одного предложения нужны только правила, относящиеся к словам данного предложения.

Получается, что для разбора фразы нужно всего-то 5-10 правил. (Понимаю, при этом будут вопросы к производительности, но это уже другая тема).

qmax Jan 4 2010 at 04:42

ну в принципе то да.
если все слова фразы в явном виде входят в базу правил,
то поиск этих правил проблемы не создаст.

qmax Jan 4 2010 at 04:16

ну и кстати, по части морфологии,
со своей колокольни (синтеза),
я бы предложил дополнить описания слов пространством имён morph,
описывающим возможные вариации слова, сохраняющие все остальные атрибуты.
а в пространстве syn заменить атрибут args
на атрибут agrees, в котором указывать, по каким именно характеристикам слово согласуется со своими валентностями.
например, для глаголов там будет согласование с subj по лицу, числу, роду

собственно такую схему я путался сделать. /* опечатку s/ы/у/ оставляю :) */
но безуспешно:
в русском по родам согласуется только прошедшее время единственное число,
число — само по себе согласовываемый признак, и что тут делать не совсем очевидно.

rg_software Jan 4 2010 at 04:40

Получается, что мы опять приходим к модели, когда каждая словоформа представляет собой отдельный объект, с собственными правилами согласования.

Nashev Jan 5 2010 at 16:23

Но из информации, что это словоформы одного и того же слова — наверное тоже то-то интересное можно извлечь и использовать. Например, я давно мечтаю об инструменте автопересогласования слов в фразах при правках отдельных слов…

Вот сейчас менял «о автопересогласовании» на «об инструменте автопересогласования» — и окончание последнего слова, к сожалению, пришлось менять самому %(

rg_software Jan 6 2010 at 04:01

В принципе, на то XDG и «extensible» :) Вы можете создать для слова атрибут, содержащий некий «идентификатор», одинаковый для всех слов, произведённых из одной словоформы. Далее по идентификатору находятся другие элементы.

Можно и ещё проще: словоформа -> (морф анализатор) -> начальная форма -> (морф синтезатор) -> требуемая форма.

zencd Jan 4 2010 at 09:21

5 и 6 части посложнее, конечно, но это ничего не значит :)

Fractalus Jan 5 2010 at 18:39

Предлагаю автору заняться анализом семантическим, это то, чем сейчас занимаются в научном мире

rg_software Jan 6 2010 at 04:05

Об этом будет следующая часть, хотя и, наверно, с её содержанием можно будет поспорить.

Fractalus Jan 6 2010 at 16:09

по поводу поспорить согласен
последний нашумевший проект на эту тему «интерсемантика»- попытка реализации единого семантического когда для всех языков.
В мае прошлого года, выступая на конференции посвященной проблемам искусственного интеллекта, один из докладчиков демонстрировал систему автоматизированного тестирования Control. Так вот, когда выяснилось, что система абсолютно не затрагивает вопросы семантического анализа, пошла буря критики и негодования, после этого докладчика слушать уже никто не хотел. Пишите про семантику, будем читать и комментировать ))))

soshial Jan 5 2010 at 21:33

Спасибо вам огромное за ваши статьи, однако у меня теплилась надежда, что вы будете писать статьи чуть шире. Не только о том, чем занимаетесь конкретно. ((

А то у меня самого кругозор в компьютерной лингвистике пока очень узок. Это грустно… =(

rg_software Jan 6 2010 at 04:05

А что вас интересует?
Если я в какой-то метод не верю — не буду писать о нём, зачем зря пропагандировать? :)
А если верю, но просто руки не доходят — буду стараться хотя бы затронуть.

pavelsh Jan 8 2010 at 08:22

А по поводу XDG. Для этой системы уже есть готовая грамматика для английского языка?

rg_software Jan 8 2010 at 08:32

Есть «примеры» разного уровня сложности прямо в поставке XDG. Существуют ли более продвинутые грамматики — не знаю.
Английский — язык с достаточно жёстко фиксированной структурой, и с ним порою неплохо справляются парсеры, основанные на более простых принципах. Видимо, мотивация «переезжать» не слишком высока.

Show the best of all time