Pull to refresh

Comments 2

Начало норм, но для Хабра, конечно, русский в разы актуальнее. А английские слова содержатся, скорее всего, во фрагментах кода.

++ Это слова из кода. Для нормализации русских pymorphy2 можно использовать


Непосредственно для создания списка слов словаря использовал немного непрямой способ, см. код, начиная с «from sklearn.feature_extraction.text import CountVectorizer». Это мне понадобиться позже.

Как раз самое интересное и не раскрыли — что делают и как работают эти самые строки. Получилась статья о том как распарсить хабр

Sign up to leave a comment.

Articles