sencho_panso 15 июн 2018 в 10:53

Извлечение сущностей из текста с помощью Stanford NLP с нуля

4 мин

13K

Java*

Из песочницы

Комментарии 7

sshikov 20 июн 2018 в 20:51

А как оно вам по сравнению скажем с OpenNLP?

И еще: зашел про ссылке «сюда», где про русский — оказалось что это клон оригинального репозитория, куда включена поддержка русского. При этом текущая версия 3.9.1, а версия клона только 3.7.0. Что прискорбно.

sencho_panso 24 июн 2018 в 21:58

Так как конкретно моя задача заключалась в том, чтобы анализировать новостные ленты, то могу сказать, что Stanford показал себя лучше при извлечении именованных сущностей на таких текстах. И, лично мне, Stanford представился, чисто интуитивно, более понятным (в частности, при составлении правил)

Да, это верно, русская поддержка Stanford-а это клон, но, на текущий момент, отличие в версии 3.9.1 и 3.7.0 в том, что появилась поддержка Китайского и Испанского через встроенные модели, а в версии 3.8 появилась поддержка более ранних версий. Принципиальных же изменений в основе Stanford-а пока что нет, так что модели можно все равно использовать с таким же успехом.

sshikov 24 июн 2018 в 22:06

Про поддержку более ранних версий в 3.8 немного недопонял. Но в целом да, я посмотрел release notes, и на первый взгляд, после 3.7.0 ничего особо нужного не обнаружил. Так что будем пробовать на 3.7 наверное.

sencho_panso 26 июн 2018 в 13:28

Пардон, да, все в порядке и поддержек старых версий никаких не добавилось.

egor7ivanov 27 июн 2018 в 10:22

Спасибо за статью! Что-нибудь еще пробовали для обработки текстов? Например, есть от Яндекса наработки.

sencho_panso 27 июн 2018 в 10:26

Да, пожалуйста! У Яндекса есть Томита-парсер. О нем могу сказать, что по сравнению со Stanford NLP, правила составления грамматик не слишком очевидные, по крайней мере лично мне, за один присест (за один вечер) не удалось полностью разобраться как они работают. К тому же, насколько я знаю, самые лучшие свои наработки в Томита-парсере Яндекс оставил себе и не включил в общедоступный релиз.

IraMefedova 4 мая 2022 в 20:13

Привет! А есть описанный пример/кейс?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

Извлечение сущностей из текста с помощью Stanford NLP с нуля

Комментарии 7

Публикации

Истории