Как стать автором
Обновить

Комментарии 8

Добрый день, да, при подготовке статьи рассматривали русскоязычные модели, в том числе ru2 (упоминали её во втором пункте).
Она покрывает многие, но пока не все возможности spaCy, поэтому для обзора взяли англоязычную модель.
И какие же возможности она не покрывает?
Мы рассматривали релизную ветку master, где ещё нет моделей для подсчёта векторов и семантической близости. Изучив development ветки действительно нашли, что и эти функции уже в разработке.
Они не «в разработке», они выложены два месяца назад. Пользоваться уже можно.
Но да, будет ещё небольшое увеличение качества перед финальным релизом, поэтому они в бете и поэтому сейчас на главной странице релиз для 2.1.
после удачной инстал. spacy, запускал это:
from spacy.lang.ru import Russian

"""
После импорта и создания экземпляра языковой модели 
можно начинать обработку текста. Для этого нужно 
всего лишь передать текст созданному экземпляру:
"""

nlp = Russian()
doc = nlp("Съешь ещё этих мягких французских булок, да выпей чаю.")

"""
Работа с получившимся объектом Doc очень схожа с работой со списками: 
можно обращаться к нужному токену по индексу или делать срезы 
из нескольких токенов. А чтобы получить текст токена или среза, 
можно использовать атрибут text:
"""

token = doc[0]
print(f"{token.text =}")

span = doc[3:6]
print(f"{span.text =}")
"""
Съешь
мягких французских булок
"""

получил ошибку:
Traceback (most recent call last):
  File "Z:\......\venv\lib\site-packages\spacy\lang\ru\lemmatizer.py", line 15, in
 __init__
    from pymorphy2 import MorphAnalyzer
ModuleNotFoundError: No module named 'pymorphy2'
.....
ImportError: The Russian lemmatizer requires the pymorphy2 library: try to fix it with "pip install pymorphy2==
0.8" or "pip install git+https://github.com/kmike/pymorphy2.git pymorphy2-dicts-uk"if you need Ukrainian too

сделал, как оно советовало,
и тогда пошло удачно.
Добрый день, спасибо за уточнение! SpaCy действительно обращается к лемматизатору от pymorphy2, поэтому для работы с русскими текстами нужно сначала его установить
По поводу «Выделение именованных сущностей».
Есть какие-то сравнения с библиотекой Flair в плане точности? Я знаю, что SpaCy лучше по производительности, но интересует именно точность.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Изменить настройки темы

Истории