Bizonozubr Jan 7 2018 at 22:17

Кластеризация и визуализация текстовой информации

10 min

30K

Python*Machine learning*

From sandbox

Comments 2

aarmaageedoon Mar 23 2018 at 12:01

Спасибо за статью.
Мне кажется, что если бы Вы в место стандартного подхода в виде TF-IDF попробовали такую модную штуку, как Doc2Vec, то качество класстеризации возросло.
И еще, один вопросик. Я никак не могу понять, NLTK может таки работать с русским языком или нет? На самом сайте ничего найти не могу по этому поводу, где-то видел, что, мол, только для английского.

kcool Mar 23 2018 at 12:01

Попробуйте для визуализации tensorboard там есть PCA и T-SNE пример тут projector.tensorflow.org. Во всяком случае нам при экспериментах объемом положить его не удалось, просто медленнее работает визуализация. С русским языком есть небольшие проблемы с отображением подписей к данным.

Show the best of all time