serhit Sep 2 2018 at 21:08

Анализ заявок на обслуживание с помощью машинного обучения

6 min

5.3K

Python*Machine learning*

+11

Comments 12

S_A Sep 3 2018 at 04:23

Ни слова о том, как текст векторизовывали (TfIdf, Count?), о настройках векторизации (min_df, norm, вот это всё). Это ведь ключевой момент для качества… А так в целом задача классификации текстов уже достаточно стандартна.

Для времени закрытия можно кстати было бы попробовать и регрессию, логарифмировав target feature предварительно.

S_A Sep 3 2018 at 04:45

Мои извинения, как-то пролистнул случайно про TfIdf, вижу.

serhit Sep 3 2018 at 16:58

На самом деле про логарифмирование и регрессию — думал и пробовал. Не очень хорошо получилось. Мне кажется это из-за «длинного хвоста» долгих заявок, которые здорово выбиваются даже на логарифмической шкале. Поэтому я решил пока свести все к задаче классификации.

S_A Sep 3 2018 at 17:25

Бахните их IsolationForest или LOF сперва :) Но в целом ясно, спасибо

AmberSP Sep 3 2018 at 23:12

Настройки векторизации сильно от разных датасетов зависят. У меня на похожей задаче сработала комбинация параметров, которая потом на других текстах была отвратительна.

S_A Sep 4 2018 at 04:48

Я не спорю, просто процесс подбора параметров — это одно из самого интересного обычно.

AmberSP Sep 4 2018 at 08:00

Gridsearchcv на пару дней и всё, никакого интереса.
А вот предобработка данных — это другое дело. У меня около 200 категорий, поэтому экспертное знание превратилось в несколько десятков регулярок по внедрению токенов в текст. И на этом очень круто взлетела точность.
Из серии мак-адрес заменить на токен macaddress.

S_A Sep 4 2018 at 08:46

Не без этого. Я часто пользуюсь стеммингом. Про grid search вроде так, да два дня это что-то многовато.

AmberSP Sep 4 2018 at 09:03

Стеммингом? Не лемматизацией, а именно стеммингом?

S_A Sep 4 2018 at 09:26

Да, и встроенными n-граммами даже иногда… но как уже вы выше написали, всё сильно зависит от датасета. Лемматизацию кстати тоже наверное попробую, но не думаю что это повысит качество для моего случая.

serhit Sep 4 2018 at 10:01

Хорошая идея про токенизацию, спасибо! Посмотрел в значимые атрибуты — действительно, константы лезут в топ. Пойду поправлю :)

AmberSP Sep 4 2018 at 10:35

Да пожалуйста :)
Вы ещё с предметниками поговорите. Они иногда случайно выбалтывают вещи типа «ну вот видишь, 6я цифра в 20-значном номере чётная? Это к Пете». Причём они это не скрывают, просто убеждены, что это — базовое знание. Как читать, писать, вот это всё.

Show the best of all time