Как стать автором
Обновить

Комментарии 3

Спасибо. Хорошая работа.

Сейчас занимаюсь изучением классификации коротких текстов. Подскажите на каком свете сейчас обстоит работа с русскими текстами у данного решения(да и вообще языками отличными от en)? Буду благодарен, если броситесь ссылками.

В scikit-learn нет тренировочных выборок на русском, методы лемматизации и стемминга не работают, токенизация проходит. Для этих целей можно использовать АОТ или SnowballStemmer. Последний не всегда хорошо справляется.
Кстати, если будете пробовать на русских текстах, то при загрузке обучающей \ тестовой выборки нужно это указать. Например, если вы создаете выборку типа 20 newsgroups:
train_data = load_files(".../path/container_folder", encoding = "cp1251")
Зарегистрируйтесь на Хабре , чтобы оставить комментарий

Публикации

Истории