Pull to refresh

Comments 12

Ни слова о том, как текст векторизовывали (TfIdf, Count?), о настройках векторизации (min_df, norm, вот это всё). Это ведь ключевой момент для качества… А так в целом задача классификации текстов уже достаточно стандартна.

Для времени закрытия можно кстати было бы попробовать и регрессию, логарифмировав target feature предварительно.
Мои извинения, как-то пролистнул случайно про TfIdf, вижу.
На самом деле про логарифмирование и регрессию — думал и пробовал. Не очень хорошо получилось. Мне кажется это из-за «длинного хвоста» долгих заявок, которые здорово выбиваются даже на логарифмической шкале. Поэтому я решил пока свести все к задаче классификации.
Бахните их IsolationForest или LOF сперва :) Но в целом ясно, спасибо

Настройки векторизации сильно от разных датасетов зависят. У меня на похожей задаче сработала комбинация параметров, которая потом на других текстах была отвратительна.

Я не спорю, просто процесс подбора параметров — это одно из самого интересного обычно.

Gridsearchcv на пару дней и всё, никакого интереса.
А вот предобработка данных — это другое дело. У меня около 200 категорий, поэтому экспертное знание превратилось в несколько десятков регулярок по внедрению токенов в текст. И на этом очень круто взлетела точность.
Из серии мак-адрес заменить на токен macaddress.

Не без этого. Я часто пользуюсь стеммингом. Про grid search вроде так, да два дня это что-то многовато.
Стеммингом? Не лемматизацией, а именно стеммингом?
Да, и встроенными n-граммами даже иногда… но как уже вы выше написали, всё сильно зависит от датасета. Лемматизацию кстати тоже наверное попробую, но не думаю что это повысит качество для моего случая.
Хорошая идея про токенизацию, спасибо! Посмотрел в значимые атрибуты — действительно, константы лезут в топ. Пойду поправлю :)
Да пожалуйста :)
Вы ещё с предметниками поговорите. Они иногда случайно выбалтывают вещи типа «ну вот видишь, 6я цифра в 20-значном номере чётная? Это к Пете». Причём они это не скрывают, просто убеждены, что это — базовое знание. Как читать, писать, вот это всё.
Sign up to leave a comment.

Articles