Comments 21
А как будет разобрано предложение: "Новенькая пила долго жевала ножку стула"?
на этапе морфологиского анализа возникнет неоднозначность, которая будет разрешена с помощью синтаксического разбора. У яндекса кстати и на этот сччет статейки есть
Вот меня и интересует как будет распознана фраза: «новенькая пила». Как Прилагательное с существительным или как существительное с глаголом.
Если можно, дайте ссылку на алгоритм разрешения подобных ситуация.
Взять эту программу вычленения фактов, натравить ее на известные новостные порталы.
Далее сделать программу, которая будет рассчитывать влияние каких-либо событий на курс чего бы то ни было (доллара, евро, акций каких-либо компаний, нефть и тд).
Потом сделать программу, которая будет исходя из результатов предыдущих программ играть на рынке.
Далее, программу, которая будет каждый месяц определенный % переводить на счет в Яндекс.Деньги или Вебмани, а затем присылать СМС-уведомление на телефон о текущей «зарплате». Остается только сходить и получить деньги.
Или продать комплект этих программ другому лентяю, за большие деньги и уже с полученной суммы уехать куда-нибудь в теплое местечко. :)
Да вы не капитан, вы адмирал прямо какой-то. Я то писал, не как применять этот самый «головной мозг человека» постоянно, а как применив один раз, можно автоматизировать некоторые действия и в результате получать прибыль. Естественно, это скорее фантастично, нежели реально, но весьма интересно. :)
есть уже такие системы, анализирующие новостные данные и вырабатывающие торговые стратегии по ним
даа, пробовали уже… коэффициент корреляции новостей с поведением рынка получился что-то около — 0.1%
Или вот такое: Эти типы стали есть на складе.
Если будет задан контекст: «ищем факты про сталь», это поможет синтаксису построить верный разбор (изначально может быть получено несколько теоретически верных синтаксических разборов).
Я такую систему разрабатываю, моё мнение что общем статья правильная. Но тут как с операционной системой — написать вроде бы просто, но получить аналог Windows 7 сложно.

II. Морфологический анализ — некоторое слова (их достаточно много) полиморфны и однозначно определить все его морфологические свойства нельзя без учёта семантики (окружающих слов). Mystem иногда у меня неправильно определяла часть речи для заданного слова. К тому же не все слова известны заранее, в словаре Зализняка чуть больше 150 000 слов в первоначальной форме.

III. Синтаксический разбор — тут сложные словосочетания вкупе с полиморфномы словами хорошо портят сладкую жизнь.

IV. Семантический разбор — мне версия реализации как делают ребята из AOT не понравилась. Проще бить сложные предложения на простые, а простые на слова, потом на основе морфологического анализа слов, правил русского языка о главных членах предложения и синтаксического разбора можно построить дерево зависимостей.

V. Извлечение фактов — тут нужно бочку чая и ящик сгущёнки для работы мозга. Вариантов много. Есть системы основанные на правилах, есть основанные на знаниях в базе, есть основанные на наборе предложений (что то между правилами и знаниями, но не правила + знания). Я использую свой способ называя его — молекулярная сеть.

Тут даже если вы выберите систему основанную на знаниях — я читал про более чем 10 способов её реализации. В общем вариантов решения множество, но ещё есть проблема качества, пока не все ещё способы достигли требуемого качества.

P.S.: На разведку я не работаю… но это пока :).

? Я использую свой способ называя его — молекулярная сеть.
Интересно. Уже не помню почему, но лет 8-10 назад, когда выдумывал собственную систему извлечения фактов, то для себя обозвал её «белковой».
Если я Вас правильно понял, ни в одном методе не рассматривается контекст. Выходит факты извлекаются независимо друг от друга?

Например:
1. Угарный газ в концентрациях выше 0.1% опасен для жизни. Вдыхание газа в течение часа приводит к смерти.
2. Ионизированные газы могут использоваться для общей профилактики. Вдыхание газа в течение часа улучшает общее состояние организма.
Нет, всё зависит от ситуации, что конкретно вы хотите получить на выходе. Смысл извлекается из простого предложения полностью, а не из конкретного слова.
Не в качестве саморекламы:

К моим презентациям, на которые Вы ссылаетесь (что мне чрезвычайно приятно :) ) есть так же видео:
mathlingvo.ru/nlpseminar/archive/s_1 — извлечение фактов
mathlingvo.ru/nlpseminar/archive/s_32 — пресс-портреты (намного лучше по содержанию)

И у нас есть еще презентация + видео Лидии Пивоваровой: Роль онтологий в извлечении фактографической информации
mathlingvo.ru/nlpseminar/archive/s_2
Банально, но спасибо огромное за статью! Я только начинаю заниматься по этой теме и эта статья для меня очень полезна.

Сам я, почему-то, вышел на CASOS AutoMap, но он ориентирован на вычленение «социально-сетевой» составляющей из текстов.
Only those users with full accounts are able to leave comments. Log in, please.