Pull to refresh

Comments 23

UFO landed and left these words here
Похоже, вместо картинки с примером синтаксического дерева, в статье по ошибке вставлена предыдущая картинка.
Не совсем в тему, но какова производительность Томита-Парсера по сравнению с GATE?
Если честно, мы никогда не сравнивали. Gate не работает с русским практически.
Наша производительность на очень сложных грамматиках и новостных текстах порядка 80 кб/час. Стандартные для выделения адресов, например, работаю на порядок быстрее.
Спасибо! Просто интересен выбор основного алгоритма для реализации правил. И вообще их сравнение.
Татьяна, а не 80 кб/сек? Просто есть общее представление, как себя ведёт Томита на разных грамматиках, и с указанной скоростью оно несколько не согласуется.
Ну конечно мб/час. Спасибо за исправление!
Это скорость на самых сложных наших грамматиках на больших текстах. В среднем быстрее значительно.
Вот такую забавную персону поймал сегодня Яндекс.Новости:

Отличный пример того, как rule based подход не выдерживает ошибок в пунктуации.
Татьяна, а можем разобрать подробнее? :) Как я понял, Томита выделил бы здесь две персоны: «Нельсон Мандела» (схема Имя-Фамилия) и «Мандела Пятьдесят» (схема Фамилия-Имя), и должен был бы разрешить между ними конфликт. Или происходит что-то немного другое?
Это забавная ошибка. Мандела попал в словарь как имя, Нельсон тоже имя. Имя может выступать и как фамилия. Любое слово с большой буквы потенциально может быть фамилией. Плюс есть ограничение, что в конфликтных ситуациях начало предложения — это отрицательный фактор.

Тут собственно и сыграло начало предложения, т.к. обе схемы были имя-фамилия.
Татьяна, ещё такой вопрос. В Яндексе, как я понял, Томита.Парсер используется, в частности, в проекте Яндекс.Новости. А как насчёт машинного обучения и онтологий, используется ли где-либо у вас?
Машинное обучение используется везде. Мы вообще стараемся делать гибриды.
А примером онтологии может служить география — мы используем данные Яндекс.Карт для извлечения географии из текстов и определения геофокуса в новостях.
Ну то что в Яндексе оно везде — это да. А вот конкретно в извлечении объектов и фактов?
Используется, например, обучаются всякие контекстные модели.
Машинное обучение используется везде. Мы вообще стараемся делать гибриды.
А примером онтологии может служить география — мы используем данные Яндекс.Карт для извлечения географии из текстов и определения геофокуса в новостях.
Only those users with full accounts are able to leave comments. Log in, please.

Information

Founded
Location
Россия
Website
www.yandex.ru
Employees
over 10,000 employees
Registered

Habr blog