Comments 2
Начало норм, но для Хабра, конечно, русский в разы актуальнее. А английские слова содержатся, скорее всего, во фрагментах кода.
+5
++ Это слова из кода. Для нормализации русских pymorphy2 можно использовать
Непосредственно для создания списка слов словаря использовал немного непрямой способ, см. код, начиная с «from sklearn.feature_extraction.text import CountVectorizer». Это мне понадобиться позже.
Как раз самое интересное и не раскрыли — что делают и как работают эти самые строки. Получилась статья о том как распарсить хабр
0
Sign up to leave a comment.
Хабра-словарь. Часть 1