Как стать автором
Обновить

Комментарии 23

НЛО прилетело и опубликовало эту надпись здесь
Полностью согласен с вами.
А можно еще ссылки на материалы ШАД-а?
Класс, жаль только что комменты не слышно
Похоже, вместо картинки с примером синтаксического дерева, в статье по ошибке вставлена предыдущая картинка.
Спасибо, исправил.
Не совсем в тему, но какова производительность Томита-Парсера по сравнению с GATE?
Если честно, мы никогда не сравнивали. Gate не работает с русским практически.
Наша производительность на очень сложных грамматиках и новостных текстах порядка 80 кб/час. Стандартные для выделения адресов, например, работаю на порядок быстрее.
Спасибо! Просто интересен выбор основного алгоритма для реализации правил. И вообще их сравнение.
Вкралась опечатка, скорость 80 МБ/час.
Татьяна, а не 80 кб/сек? Просто есть общее представление, как себя ведёт Томита на разных грамматиках, и с указанной скоростью оно несколько не согласуется.
Ну конечно мб/час. Спасибо за исправление!
Это скорость на самых сложных наших грамматиках на больших текстах. В среднем быстрее значительно.
Вот такую забавную персону поймал сегодня Яндекс.Новости:

Отличный пример того, как rule based подход не выдерживает ошибок в пунктуации.
Татьяна, а можем разобрать подробнее? :) Как я понял, Томита выделил бы здесь две персоны: «Нельсон Мандела» (схема Имя-Фамилия) и «Мандела Пятьдесят» (схема Фамилия-Имя), и должен был бы разрешить между ними конфликт. Или происходит что-то немного другое?
Это забавная ошибка. Мандела попал в словарь как имя, Нельсон тоже имя. Имя может выступать и как фамилия. Любое слово с большой буквы потенциально может быть фамилией. Плюс есть ограничение, что в конфликтных ситуациях начало предложения — это отрицательный фактор.

Тут собственно и сыграло начало предложения, т.к. обе схемы были имя-фамилия.
Татьяна, ещё такой вопрос. В Яндексе, как я понял, Томита.Парсер используется, в частности, в проекте Яндекс.Новости. А как насчёт машинного обучения и онтологий, используется ли где-либо у вас?
Машинное обучение используется везде. Мы вообще стараемся делать гибриды.
А примером онтологии может служить география — мы используем данные Яндекс.Карт для извлечения географии из текстов и определения геофокуса в новостях.
Ну то что в Яндексе оно везде — это да. А вот конкретно в извлечении объектов и фактов?
Используется, например, обучаются всякие контекстные модели.
Машинное обучение используется везде. Мы вообще стараемся делать гибриды.
А примером онтологии может служить география — мы используем данные Яндекс.Карт для извлечения географии из текстов и определения геофокуса в новостях.
Зарегистрируйтесь на Хабре , чтобы оставить комментарий