MKrivosheev 13 июл 2012 в 00:02

«Диалог-2012»: соревнования по анализу тональности текстов и конкурс синтаксических анализаторов

5 мин

11K

Блог компании Content AI

+24

Комментарии 30

Cybersoph 13 июл 2012 в 00:13

Иногда мне кажется, что все подобные «синтаксические соревнования» делаются умышленно, чтобы скрыть истинную плачевную ситуацию, сложившуюся в комплинге (компьютерной лингвистике). Опять народ дурят «лингвистическим дурманом».

Когда же прекратится этот лингвобеспредел?

-5

MKrivosheev 13 июл 2012 в 00:16

Я, к сожалению, не профессионал в этой области, но мне кажется, что компания не вкладывала бы деньги в проекты, касающиеся компьютерной лингвистики, если бы всё было настолько плохо. Надеюсь, скоро все мы сможем пользоваться результатами этих разработок.

Cybersoph 13 июл 2012 в 00:19

Вот уже 60 лет по всему миру вкладывают в абсолютно бесперспективную технологию, пытаясь найти что-то там, где этого явно нет!
Никак не пойму такую настойчивость.

-7

Dehumanizer 13 июл 2012 в 22:19

Простите, вот меня заинтересовала Ваша точка зрения, есть ли у Вас какие нибудь доказательства того, что эта технология и впрямь бесперспективная.
Тут два вариант:
1) Вы действительно делаете что-то крутое и знаете как правильно надо анализировать текст.
2) Вы хороший философ и думаете (без каких-либо дельных обоснований), или пришли к заключению (думая), что все ошибаются, поскольку компьютер никогда не станет человеком.

За ответ буду благодарен.

Cybersoph 14 июл 2012 в 00:08

Что такое текст на естественном языке (ТЭЯ)? По большому счёту это код или кодированное сообщение (КС), которым автор какой-то мыслеформы зашифровал её для передачи адресату.

Что такое мыслеформа? Это некая виртуальная Модель Поведения Образа (МПО), которая либо хранится в человеческой памяти, либо возникает в нашем сознании. Отметим, что МПО, хранящаяся в нашей памяти, и есть ЗНАНИЕ.

Люди, к сожалению (или к счастью), не обладают способностью (возможностью) к телепатическому обмену и потому не могут видеть (чувствовать, ощущать...) напрямую, что и как конкретно мыслит кто-либо из них. Поэтому, чтобы выразить или передать свои созерцания, эмоции и чувства, а в общем случае – МПО, они вынуждены прибегать к такому средству, как языковое сообщение, которое, в принципе, может быть в различных ипостасях: речь, текст, жесты и т.пр. То есть, виртуальные МПО (знания) кодируются в языковые сообщения.

Рассмотрим для удобства только текст, который в общем случае состоит из лексических единиц (части речи и частицы). Итак, в ТЭЯ автором зашифрованы какие-то мыслеформы (МПО), которые предназначены для декодирования получателем этого КС. Процесс дешифровки называется ИЗВЛЕЧЕНИЕМ СМЫСЛА, то есть, восстановлением в сознании адресата отправленной ему мыслеформы (мысли).

Каким же образом это происходит? Как и за счет чего мы понимаем чужие КС? Неужели мы каждый раз вычисляем связи и отношения между лексемами в предложении, как это умеют делать лингвисты? Да нет, конечно! Дети, которые до школы ничего не знали про лингвистику с её морфологией и синтаксисом, легко понимают своих родителей и сверстников. Правда, в одном только случае, если они мыслят и думают на одном и том же языке, росли и воспитывались в одной среде.

А как они это делают? Да опять же с помощью всё тех же МПО, которые в необходимо-нужном количестве имеются в их памяти. Когда мы получаем какое-либо КС, то оно вызывает в нашем сознании ассоциативное извлечение из памяти МПО, соответствующих этому КС. То есть, мы используем МПО для дешифровки КС, благо они у нас есть, приобретенные в ходе обучения и самообучения в течение жизни.

И наоборот. Если у нас нет необходимых для декодирования МПО, то мы и не поймём смысл (замысел) создателя КС.

Таким образом получается, что лингвистика к кодированию и декодированию языковых сообщений между людьми не имеет НИКАКОГО ОТНОШЕНИЯ, то есть, в обыденной практике, мы никак не пользуемся достижениями этой уважаемой научной дисциплины.

Теперь перейдём к так называемой машинной обработке текстов (МОТ). Чтобы компьютер мог понимать нашу речь (текст, жесты...), он должен иметь в своей компьютерной памяти («компьютерном сознании») некоторое подобие тех виртуальных МПО, которыми владеет и оперирует человек. При этом ЭВМ должна распознавать должным образом текст, извлекать из него первичные ключевые МПО и находить им соответствия с имеющимися в памяти виртуальными МПО

Повторить или переложить способности нашего сознания в машину пока не очень удаётся. Прежде всего из-за резких отличий человеческих возможностей от компьютерных. Если у последних всё основано на вычислении, то у людей, как раз, наоборот, всё построено на распознавании. Мы не вычисляем, а распознаём – Образы (Объектов) и Акции, в которых они участвуют. Распознанные нами вещи (факты и события) составляют Базу Знаний на основе МПО.

Научить машину распознавать графические Образы, оказалось делом непростым. Вследствие этого разработчики софта для МОТ избрали иной путь – компьютерную лингвистику, поддавшись иллюзиям, что «синтаксические связи и семантические отношения» между словами позволят ЭВМ понимать человеческую речь. Но дело в том, что это и не путь вовсе, и по нему нельзя идти, так как это ТУПИК. Здесь нет движения уже более полувека.

Да, иного и не могло быть, поскольку лингвистика НЕ ИЗУЧАЕТ процедурность мышления, а занимается «обсчётом» вторичного продукта – языкового сообщения – вместо того, чтобы заниматься, собственно, тем, что является первичным, то есть, мышлением.

Возникает резонный вопрос: «Почему же до сих пор ученые и специалисты не смогли преобразовать ЭВМ из «счетного», по определению, компьютера в искомую «эвристико-ассоциативную» машину, понимающую смысл?

Ответ здесь такой. Либо масла в голове не хватает у разработчиков, либо скрывают свои наработки, а всех пускают по ложному следу.

А что, в принципе, нужно для того, чтобы обычный комп превратить в «думающую машину»? А ровно следующее:
— создать электронно-цифровые аналоги виртуальных МПО;
— определить им языковые соответствия;
— распознавать смысл (замысел) текста (контекста).

Вот ровно эти три вещи и нужны для того, чтобы превратить «безмозглую железку» в «разумную электронную интеллегентность».

На данный момент в теории эта триада уже разработана группой iknowww.ru и сейчас на 2/3 реализована в практической части в виде ТЭСОТ «Ontology».

Ну, вот, кажется, и ответил на Ваш вопрос. А в чём, конкретно, будет выражаться Ваша благодарность?

Dehumanizer 14 июл 2012 в 02:35

Дело в том, что сам я тоже считаю Ваши мысли верными. Немного странно вышло, что народ минусовал Ваши комментарии, поэтому я попытался узнать Вашу «полную» точку зрения.
Тем не менее, спасибо за ответ.

По правде не понял Ваш вопрос:
«А в чём, конкретно, будет выражаться Ваша благодарность?»

Cybersoph 14 июл 2012 в 08:11

Народу всегда тяжело понять и пережить, что напрасно потеряны годы на овладение «лингвистическими технологиями», «нейро-семантическими сетями», «Compreno» и прочими бесполезными вещами. Тем более, что некоторые вынуждены проводить политику компаний, где они работают.

Что касается «благодарности». Ведь, Вы, задавая свой вопрос, сказали: «За ответ буду благодарен.» Вот, я и спросил, в каком виде Вы собираетесь меня благодарить.

tlando 21 июл 2012 в 12:11

У Вас неверные предпосылки.
1.
Сравните: [Петя побил Васю] и [Вася побил Петю].
Очевидно, чтобы понять, кто кого побил носитель языка использует — тадам! — связи в предложении и синтаксические роли объекта и субъекта действия.
Они выражаются падежами и порядком слов.
2.
Прикладная лингвистика не ставит цели создать супер-киборга. Но многие прикладные задачи отлично решает. Например, автоматический перевод может помочь прочитать сайт на иностранном языке, не на 100%, но разобрать время работы музея вполне можно.
3.
Прикладная лингвистика не ограничивается синтаксисом. У той же ABBYY Compreno внутри огромная онтология и куча семантических представлений.
4.
Лингвистика очень даже занимается мышлением. Если Вы этого не знаете, то лингвистика не виновата.

Cybersoph 21 июл 2012 в 12:37

//У Вас неверные предпосылки. //

А где эталон верных предпосылок? Давайте сравним и проверим.

//1. Сравните: [Петя побил Васю] и [Вася побил Петю].
Очевидно, чтобы понять, кто кого побил носитель языка использует — тадам! — связи в предложении и синтаксические роли объекта и субъекта действия.
Они выражаются падежами и порядком слов. //

[Размер определяет замер].
Ну и где здесь какие падежи что определяют? Какой "«тадам»" во всём этом присутствует?

//2. Прикладная лингвистика не ставит цели создать супер-киборга. Но многие прикладные задачи отлично решает. Например, автоматический перевод может помочь прочитать сайт на иностранном языке, не на 100%, но разобрать время работы музея вполне можно.//

Языковое сообщение без обработки его сознанием МЕРТВО!
В Яндексе работает Алексей Сокирко, спросите о этом, хотя бы его.

//3.
Прикладная лингвистика не ограничивается синтаксисом. У той же ABBYY Compreno внутри огромная онтология и куча семантических представлений. //

Что такое огромная? Для лысого и три волоска на голове это много.
60-70 тысяч условных семосей в Компрено это много? Когда их требуется, порядка, 10 000 000 000?! И когда они всех создадут? Сколько сколковских грантов нужно для этого?

//4.
Лингвистика очень даже занимается мышлением. Если Вы этого не знаете, то лингвистика не виновата.//

В задачи лингвистики, как научной дисциплины, входит обсчет и обмер вторичного продукта, называемого языковым сообщением.

А первичный процесс, производящий этот вторичный процесс, находится вне компетенции языковедов. Для того, чтобы понять, как работает мышление, у лингвистики нет нужных технологий, ни методологии, ни инструментария.
Если Вы лично этого не знаете, то виновато здесь Ваше мышление.

-1

tlando 21 июл 2012 в 14:32

1.
[Размер определяет замер] и человек не всегда сможет понять (я вот не могу понять кто главнее: размер или замер). Пример тяжелой неоднозначности. И что? Как это противоречит тому, что в случае отсутствия неоднозначности синтаксические роли помогают. С Петей и Васей же все понятно, хотя мы с ними не знакомы.

2.
//Языковое сообщение без обработки его сознанием МЕРТВО!
Это Вы к чему?
Я вот благодаря google translate вчера выяснила как добраться из своей гостиницы до Помпеев. И кто тут умер?

С Алексеем мы часто беседуем, спасибо :)

3.
Я в ABBYY не работаю, т.ч. назвать цифры не могу. Работает весьма недурно судя по демонстрациям. Опять таки чтобы завязать бантик трех волосков хватит ;)
Откуда вы взяли эти 10 млрд?

4.
Ну я-то как раз много всего знаю. Например, что есть огромный пласт работ по языку и мышлению и авторы причисляют себя к лингвистам. Работают на стыке с психологией, нейрофизиологией и т.д. Проводят очень интересные эксперименты. Я не специалист, поэтому пересказывать не возьмусь. Гугл в помощь, начать можно ну хоть с Джона Бейлина и Рея Джекендорфа.

//Если Вы лично этого не знаете, то виновато здесь Ваше мышление.
Когда нечего сказать всегда переходят на личности.

DKey 24 июл 2012 в 17:37

Мне кажется, чтобы спорить с сохранением достоинства и уважения к собеседнику, нужно отойти от агрессии и спокойно разобраться в терминах. В формальном представлении естественного языка выделяют уровни: от графематического, к уровню слов, далее уровень словосочетаний (вроде прил.+сущ.), потом синтаксис, который в некоторых работах тесно связан с семантикой, далее прагматика. Продолжать в обе стороны можно сколько угодно и предлагать подчас ортогональные подходы и видения. Здесь намерено пропущены многие детали, вдруг они сподвигнут читающего эти строки заглянуть поглубже в литературу.

Но так или иначе есть упомянутая прагматика. Когда Вы приводите пример с «Размер определяет замер», под этим есть прагаматика. tlando (и я здесь присоединюсь) честно призналась, что не знает, что из этого главнее. Почему так? Просто потому, что ни она, ни я не владеем базой знаний по этому конкретному предмету. Знание может выражаться как в формальном виде, например, мы могли бы узнать это в учебном заведении на лекции, либо в неформальном, например, если бы эту фразу часто произносили в нашем детстве. Но во фразе «Мать любит дочь», если опустить интонационную окраску (а её отстутствие нередкость в печатном или оцифрованном тексте), то вполне разумно допустить, что Мать — субъект, а дочь — объект предложения (т.е. мать главнее). Это допущение разумно в силу принятого порядка слов в русском языке + некоторого языкового чутья, которое каждый из нас приобрёл в силу того или иного уровня образования.

А теперь представьте, что перед Вами стоит задача научить систему (парсер) корректно распознавать такие случаи. Что же делать? Один из подходов — гоняться за правдой и «догнав» её (например, во сне), вбить это в свою систему, чтобы затем претендовать на беспрекословную правильность. А можно выдавать все варианты (и мать любит, и дочь). Что получается в этом случае? Очевидная вещь. Сложность прагматической резолюции смысла перетекает в систему, которая будет пользоваться выводом Вашего парсера. Вы, как создатель, парсера, заверите своих клиентов, что обманывать не собираетесь и решаете только задачу синтаксического разбора. А Ваши клиенты будут думать дальше, в зависимости от задачи, которую решают. Выбор сугубо за Вами, как за создателем.

Как говорят в английском, point is, что многое зависит от задачи, которую перед собой ставите вы, как создатель парсера.

rg_software 13 июл 2012 в 01:40

Ну почему же. Соревнования — это хорошо, я как раз отслеживаю результаты конкурсов CoNLL. Периодически появляются интересные разработки. Вы правы в том, что результаты очень часто лукавы — на соревнованиях парсер показывает какие-нибудь 97%, а потом начинаешь изучать что да как и понимаешь, что не всё радужно. Но это всё-таки действо, люди готовятся к нему, выкладывают новые разработки…

А по поводу бесперспективной технологии — это вы тем более напрасно, за последние 60 лет прогресс очень даже есть. Не машинный перевод, конечно, но в отдельных номинациях есть что представить.

Cybersoph 13 июл 2012 в 02:18

Соревнование в тупиковом направлении дают тупиковые результаты. Что и видим на деле.

Обработка текста лингвистическими технологиями (методами и средствами) дело контрпродуктивное. Опять же убеждаемся на протяжении многих лет.

Обработка текста должна происходить с помощью «мыслительных» технологий, с использованием способов и инструментов ИЗВЛЕЧЕНИЯ СМЫСЛА, а не путём сомнительного установления синтаксических связей и отношений между словами в тексте. На самом деле надо работать с контекстом.

Какая дикость, продукт мышления изучать не с точки зрения процедурности мышления, а с позиций «измерения вторичных продуктов», то есть языковых сообщений! Текст — это всегда код. Таким он и останется, какие бы соревнования не проводились.

И это происходит из года в год. Спросите, почему? Да, наверное, потому, что в этой области давлеет американская «лингвистическая школа», хотя в отечественной есть действительно передовые, если не сказать, революционные достижения.

-5

rg_software 13 июл 2012 в 02:30

Вы сейчас приводите кучу безосновательных, недоказанных утверждений, поэтому я даже не знаю, с чем конкретно спорить.

Синтаксический анализ или извлечение смыслов — это просто разные задачи.
Если меня интересует, скажем, извлечение именованных объектов из текста, мне наплевать на смысл — я всего лишь хочу вытаскивать существительные и прилагательные, если надо.

Вы же сами говорите: текст — это всегда код. В любом компиляторе компьютерных языков можно выделить лексический, синтаксический и семантический анализ. Здесь речь идёт о синтаксическом анализе — обязательном среднем звене этой цепи.

Давления «американской школы» здесь нет, за последние 10 лет подтянулась Европа со своими подходами, альтернативными идеям Хомского, напр.

Cybersoph 13 июл 2012 в 10:07

>>>Если меня интересует, скажем, извлечение именованных объектов из текста, мне наплевать на смысл — я всего лишь хочу вытаскивать существительные и прилагательные, если надо. >>>

Ну, так это умели делать и во времена МАРК-1, ещё 55 лет назад.

Ребёнок, воспринимая человеческую речь, не занимается извлечением существительных и прилагательных. Для этого есть СЛОВАРЬ! И элементарным методом сравнения можно извлечь любые этикетки для любых слов для любого языка.

Ребёнку НЕ НУЖНО знать морфологию, синтаксис и семантику, чтобы понять, о чём говорят мама с папой. Это нонсенс.

Единственная нагрузка человеческой речи, как протокола обмена мыслеформами между людьми, доносить мысли создателя языкового сообщения до адресата. Всё остальное от лукавого и «научное словоблудие».

-2

rg_software 13 июл 2012 в 10:14

> Ну, так это умели делать и во времена МАРК-1, ещё 55 лет назад.

Конечно, умели! Если почитать публикации сорокалетней давности, они и машинный перевод делать умели и распознавание образов, вообще всё умели.

Мысль ваша ясна и в общем-то разумна: если бы компьютер был ребёнком, ему не надо было бы знать семантику, морфологию и проч., он бы сам всему научился в процессе общения.

Проблема лишь в том, что компьютер не ребёнок. Если бы компьютер был человеком, ему не надо было бы хранить огромные базы готовых ходов для шахмат — он бы сам придумывал хорошие ходы из головы. Но как показала практика, гораздо проще запихнуть в компьютер базы ходов, чем сделать из компьютера мыслящий организм.

Поэтому — да. В перспективе хотелось бы, чтобы компьютер сам учился и понимал, что да как. Но я думаю, что ни дети, ни внуки мои до этого не доживут. Так что будем пока по старинке.

Cybersoph 13 июл 2012 в 10:24

Хорошо, что Вы понимаете существо дела. Но не радует Ваш пессимизм.

Во-первых, качество шахматиста определяется КОЛИЧЕСТВОМ ЗАПОМНЕННЫХ им ситуаций, встречавшихся в турнирах между гроссмейстерами.
Сегодня для мирового чемпионства нужно претенденту запоминать 50 000 вариаций и развитий.

Во-вторых, технологии смысловой обработки уже есть, например, ТЭСОТ «Ontology». Сейчас они проходят этап детских штанишек, но скорость развития высока. Так что уже через год будете иметь счастье лицезреть сие творение.
На рынке уже имеются первые демоверсии в виде семейства «Думботов».

-4

rg_software 13 июл 2012 в 10:29

Вот и хорошо, подождём взрослых штанишек — а там уже критикуйте отсталость нынешних технологий в своё удовольствие! :)

Cybersoph 13 июл 2012 в 10:45

У меня нет удовольствия в критике «отсталости технологий». Меня удивляет ОТСТАЛОСТЬ их «внедрителей».

-3

rg_software 13 июл 2012 в 10:49

Всё просто: каждый решает свою конкретную задачу наиболее экономным способом. Я понимаю, что «лучше день потерять, а потом за пять минут долететь», но не у всех есть этот день.

Cybersoph 13 июл 2012 в 11:07

Так надо решать, а не заниматься пропагандой невесть чего!

-1

rg_software 13 июл 2012 в 11:09

ну так надо решать, а не на хабре дискутировать!

Cybersoph 13 июл 2012 в 11:10

Хабр это информационная площадка в том числе и для дискуссий.

ContentAI_Team 13 июл 2012 в 12:40

Лингвистический анализ текста являетя необходимой частью информационного анализа вообще. Не зная устройства предложения (=синтаксиса), нельзя заниматься семантическим и логическим анализом текстов, из которых они состоят.

Вытаскивать факты из текстов, не понимая их, может быть и эффективным в отдельных случаях, но в целом — совершенно бесперспективно.

Cybersoph 13 июл 2012 в 13:30

Позвольте! И это пишут от имени ABBYYTeam? Не может быть, не верю. Что за терминология?

Во-первых, "информационный анализ вообще". Это нонсенс!

Бывают анализы лингвистические, синтаксические, семантические, «поверхностно-семантические», морфологические, математические, статистические…
Но никогда не слышал «информационный анализ». Информация — это что, новая научная дисциплина, отдельное направление… Вот «семантический анализ информации» знаю. Математическая обработка информации — тоже хорошо. Видимо, господа ушли так далеко вперёд, что мне уже их (в моём возрасте) просто не догнать.

Во-вторых, естественно-язычные сообщения, одним видом из которых является их носитель — текст, предназначены для переноса мыслеформ от одного индивидуума к другому, используя инструмент, называемый языковым.
Текты, надо полагать, не предназначены для переноса «анализа».

В-третьих. Вот чудеснейший перл в стиле покойного Черномырдина: "нельзя заниматься семантическим и логическим анализом текстов, из которых они состоят".

Думаю не ошибусь, если местоимение [они] тут относится анафорически к слову [текстов], поскольку во всём предложении нет иных логем во множественном числе.
Итак, анализируем сие высказывание. Здесь:
а) либо => «тексты состоят из текстов»,
б) либо присутствует комитатив => «тексты состоят из анализов.

Даже сапожники из Армении в Москве сегодня более грамотно излагают свои мысли, а уж „представителям“ солидной и весьма мною уважаемой компании ABBYY просто непростительно.

Тексты, уважаемые, НЕ СОСТОЯТ ни из текстов, ни из анализов. Более того, тексты и НЕ СОДЕРЖАТ ничего, кроме лексических единиц, выраженных частями речи, например, в виде слов и частиц, или графем, наконец.

В-четвёртых. Завершающая фраза: „Вытаскивать факты из текстов, не понимая их, может быть и эффективным в отдельных случаях, но в целом — совершенно бесперспективно.“ вообще не поддаётся комментарию. Нужно сильно напрягаться, чтобы понять, какую мыслеформу хотел автор донести до читателей Хабра. Нет ни грамматического согласования, да некоторые слова, по-видимому, опущены…

ABBYY в моих глазах падает.

-4

Irokez 13 июл 2012 в 22:36

В соревновании приняло участие 12 систем. Лучшие результаты показала система группы под руководством Николя Четверкина (Вычислительный центр МГУ).

Организаторы соревнований: Четверкин, Браславский, Лукашевич
Лучшая система: Четверкин

Хмм…

andywhite 17 июл 2012 в 01:50

Как я понял, парсеры тестировались на 64853 предложениях… Было бы интересно узнать, сколько ошибок сделала каждая система, сколько предложений было обработано правильно.

velomenon 19 июл 2012 в 15:59

Тут с вашего (всеобщего) позволения я бы хотел добавить, так для галочки (для своего понимания) — как это может понять машина ??? ;)

pixs.ru/showimage/modernlady_9066397_5307429.jpg — тут приведен текст…

DKey 20 июл 2012 в 20:55

Наш проект SemanticAnalyzer Group здесь. См. демо + Проект на основе синтактико-семантического анализатора по машинному переводу: MTEngine (проекту нужны волонтёры, приходите, будет интересно :) ).

Статья про сравнение парсеров тут.
слайды здесь.

DKey 20 июл 2012 в 21:05

добавлю, что несмотря на все неоднозначности при сравнительной оценке парсеров, конкурс был весьма полезным с точки зрения проверки систем на большом корпусе предложений: порядка 60 тысяч. Это даёт основания делать более статистически устойчивые оценки, чем при тестировании в «герметичных условиях».

Надеюсь, конкурс продолжится и улучшится в следующем году и будет представлено больше разнообразных систем!

Зарегистрируйтесь на Хабре, чтобы оставить комментарий