Извлечение фактов. Синонимия и омонимия

Чулан
Данный пост возник как результат общения с одним наивным человеком и результат собственных размышлений о таком сложном и неоднозначном предмете, как язык (в данном случае русский).
О разговоре: суть заключалась в том, что (назовём его Некто) Некто заявлял, что процесс извлечения фактов из текста на естественном языке – вещь достаточно простая и легко реализуемая, мол, ищем глаголы (слова, заканчивающиеся «ет/ют/ел/…») и рядом стоящие существительные (слова длинной более 4 букв), составляем триплеты и загоняем в базу онтологий – вот и движок по извлечению фактов.
Тут же, по моей собственной системе классификации интеллекта, человек получил одну из самых наименьших оценок, но это заставило меня задуматься о некоторых аспектах представления информации в ЕЯ и сложностях, возникающих при извлечении информации из него.

Сегодня будет разговор о синонимии и омонимии.

Синонимия


Синонимией называется особенность русского языка, когда один и тот же смысл может быть выражен по-разному. Например, слова «кавалерия» и «конница» означают одно и тоже (морфологическая синонимия), а смысл, выражаемый фразой «Смит не сумел перевести этот текст только из-за того, что в нём оказалось много специальных терминов» может быть выражена более чем миллионом синонимичных перифраз (синтаксическая синонимия)! В самом деле, «не сумел = не смог = оказался неспособен = ему не удалось…», «только = лишь = исключительно = единственно = …», «из-за того, = потому что = по причине того…» и т.д. – все эти варианты создают огромное множество вариантов передачи смысла, а их прямое (декартово произведение) огромное – n-мерное множество вариантов.

Омонимия


Омонимия, в противоположность синонимии, прячет за одним и тем же словом (морфологическая омонимия) или выражением (синтаксическая омонимия) несколько, иногда противоположных смыслов. Например, слово «стали» может использоваться как в фразе «Рабочие выплавили много стали за смену», так и в «Дети за лето стали сильнее» и иметь совершенно разные смыслы и предназначения в предложении. Синтаксическая омонимия предложения может быть легко продемонстрирована высказыванием «Мужу нельзя изменять». Более сложный пример, проходимый всеми в школе – «Он из Германии туманной привёз учёности плоды» (А.С. Пушкин) – тут может говориться о «туманной Германии» (именно так и понимается большинством – но разве Германия считается туманной страной), а может говориться о «туманной учёности» (туманность же учёности Ленского не подвергается
никем особым сомнениям).

Нельзя забывать и ещё об одном подвиде омонимии — полисемии. Эффекте, когда у одного и того же слова (не являющемся одной из словоформ, сходной по написанию и произношению, как в случае со «стали»), например у слова «нос»«нос лодки воткнулся в песчаный берег» и «нос у Васи с козявками». Человек легко, понимает какой из смыслов брать, а компьютер?

Методы борьбы с омонимией разработаны и отлажены очень давно – они имеют свои плюсы и минусы. Это скрытые Марковские модели, деревья подчинения, анализ контекста, справочники оборотов, словари сочетаемости и прочее. К сожалению, их детальное (или даже приблизительное) описание не укладывается в рамки статьи – поэтому отложу это до следующего раза.

Литература:


  1. Гладкий А.В. Синтаксические структуры естественного языка в автоматизированных системах общения. М.: “Наука” 1985.


Дальше >>>
Теги:nlpобработка естественных языковкомпьютерная лингвистика
Хабы: Чулан
+12
943 8
Комментарии 21

Похожие публикации

Курс "NLP"
8 апреля 202121 000 ₽New Professions Lab
Факультет интернент-маркетинга
1 февраля 2021210 000 ₽GeekBrains
Основы HTML и CSS
1 февраля 2021БесплатноНетология

Лучшие публикации за сутки