Comments 12
Ни слова о том, как текст векторизовывали (TfIdf, Count?), о настройках векторизации (min_df, norm, вот это всё). Это ведь ключевой момент для качества… А так в целом задача классификации текстов уже достаточно стандартна.
Для времени закрытия можно кстати было бы попробовать и регрессию, логарифмировав target feature предварительно.
Для времени закрытия можно кстати было бы попробовать и регрессию, логарифмировав target feature предварительно.
0
Мои извинения, как-то пролистнул случайно про TfIdf, вижу.
0
На самом деле про логарифмирование и регрессию — думал и пробовал. Не очень хорошо получилось. Мне кажется это из-за «длинного хвоста» долгих заявок, которые здорово выбиваются даже на логарифмической шкале. Поэтому я решил пока свести все к задаче классификации.
0
Настройки векторизации сильно от разных датасетов зависят. У меня на похожей задаче сработала комбинация параметров, которая потом на других текстах была отвратительна.
0
Я не спорю, просто процесс подбора параметров — это одно из самого интересного обычно.
0
Gridsearchcv на пару дней и всё, никакого интереса.
А вот предобработка данных — это другое дело. У меня около 200 категорий, поэтому экспертное знание превратилось в несколько десятков регулярок по внедрению токенов в текст. И на этом очень круто взлетела точность.
Из серии мак-адрес заменить на токен macaddress.
0
Не без этого. Я часто пользуюсь стеммингом. Про grid search вроде так, да два дня это что-то многовато.
0
Хорошая идея про токенизацию, спасибо! Посмотрел в значимые атрибуты — действительно, константы лезут в топ. Пойду поправлю :)
0
Sign up to leave a comment.
Анализ заявок на обслуживание с помощью машинного обучения