Как стать автором
Обновить

Комментарии 7

А как оно вам по сравнению скажем с OpenNLP?

И еще: зашел про ссылке «сюда», где про русский — оказалось что это клон оригинального репозитория, куда включена поддержка русского. При этом текущая версия 3.9.1, а версия клона только 3.7.0. Что прискорбно.
Так как конкретно моя задача заключалась в том, чтобы анализировать новостные ленты, то могу сказать, что Stanford показал себя лучше при извлечении именованных сущностей на таких текстах. И, лично мне, Stanford представился, чисто интуитивно, более понятным (в частности, при составлении правил)

Да, это верно, русская поддержка Stanford-а это клон, но, на текущий момент, отличие в версии 3.9.1 и 3.7.0 в том, что появилась поддержка Китайского и Испанского через встроенные модели, а в версии 3.8 появилась поддержка более ранних версий. Принципиальных же изменений в основе Stanford-а пока что нет, так что модели можно все равно использовать с таким же успехом.
Про поддержку более ранних версий в 3.8 немного недопонял. Но в целом да, я посмотрел release notes, и на первый взгляд, после 3.7.0 ничего особо нужного не обнаружил. Так что будем пробовать на 3.7 наверное.
Спасибо за статью! Что-нибудь еще пробовали для обработки текстов? Например, есть от Яндекса наработки.
Да, пожалуйста! У Яндекса есть Томита-парсер. О нем могу сказать, что по сравнению со Stanford NLP, правила составления грамматик не слишком очевидные, по крайней мере лично мне, за один присест (за один вечер) не удалось полностью разобраться как они работают. К тому же, насколько я знаю, самые лучшие свои наработки в Томита-парсере Яндекс оставил себе и не включил в общедоступный релиз.

Привет! А есть описанный пример/кейс?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории