Как стать автором
Обновить

Комментарии 3

TF-IDF как-то уже и не нужен нынче. Для простых случаев и CountVectorizer хватает, а для сложных проще сразу из артиллерии типа fastText или там BERT стрелять начать. :)
Вроде как шучу, но вообще очень быстро всё развивается, используемые модели и инструменты могут радикально поменяться всего лишь за год. Очень динамичная область знаний.
C CountVectorizer начинаем ;)
Так и есть, новый state-of-the-art может каждые пару месяцев появляться, всё время нужно следить, учиться, переучиваться, дополнять или выкидывать. Но и «классические» методы из каких-нибудь дремучих 2010-х годов всё ещё активно используются и отлично себя показывают, так что приходится знать и то, и другое, и третье.
Зато не скучно :3
От классических методов никуда не деться, конечно, потому что идеал продакшена в реальной жизни — это Linear Regression поверх продвинутого фича-инжиниринга. Чтобы всё было быстро, понятно, легко интерпретируемо. Хотя в обработке текстов/картинок всё-равно без SOTA никуда. :)
Я просто не представляю, как можно курсы в актуальном состоянии поддерживать, когда всё вот так вот динамично. %)
Зарегистрируйтесь на Хабре, чтобы оставить комментарий