Как стать автором
Обновить

Комментарии 7

Прикольно получилось!

Чтобы приводить слова к базовой форме, можно заюзать pymorphy2


Вместо отсеивания стоп-слов можно просто отранжировать слова и фразы по tf-idf, считая "документом" пачку вакансий по одному и тому же запросу. Тогда мусор типа "будет плюсом" уйдёт в низ рейтинга.


Идея на будущее: оценить, какие навыки ценятся выше всего (коррелируют с высокой зарплатой).

Спасибо, это учту при следующем анализе.
Можно прикрутить для синонимов и понимания отношения слов word2vec, также там можно будет посмотреть на опечатки.
Я рассматривал word2vec. Стыдно признаться, ну для мне было сложновато и я отложил его на будущее:)
90% рекрутёров ничего не понимает в области, в которой они ищут специалистов, поэтому очень полезно знать, какие ключевые слова они используют в поиске. Можно втыкать в резюме такие ключи по сеошному принципу — видел книжку по машинному обучению, стоял рядом с биг дата, имеется ручной python.
;)
Зарегистрируйтесь на Хабре , чтобы оставить комментарий

Публикации

Истории