640509-040147 Dec 25 2018 at 14:36

Предсказываем время решения тикета с помощью машинного обучения

21 min

6.8K

DINS corporate blogPython*Data Mining*Machine learning*

+14

Comments 6

SicYar Dec 25 2018 at 15:16

Очень интересно, спасибо за статью!

MMik Dec 25 2018 at 15:44

Напомнило про статью с описанием системы ICL'а от mr2dark «ICL Services использует основанную на машинном обучении систему для организации поддержки ИТ-пользователей».

S_A Dec 25 2018 at 16:37

Вообще-то, весьма слабые R-квадраты вы такие (зря) выкладываете… В целом подход-то ясен.

И еще, ну так, к слову пришлось, сами модели мало решают (что R-квадрат собственно и показал). Решают отинжениренные фичи.

Если тут можно рекомендовать, я бы зашел с другой стороны. Есть готовый gensim doc2vec, ну или keras embeddings layer, то есть векторизовать тексты описаний тикетов — важно было бы. И второе — просто и я постоянно этим пользуюсь — сделать логарифмирование таргета. Со временами тикетов должно сработать, модели чаще лучше фитятся.

Для параллельных вычислений когда данных много, используйте dask например, для sklearn есть параметр n_jobs.

Vinchi Dec 27 2018 at 23:54

Поработайте с категориальными фичами, возможно значительно лучшите модель, как вы сами заметили — самый большой разброс был для проектных задач. И вообще в таком случае как тоже знакомый с кухней ITSM — проектные задачи лучше дробить на подтикеты, так вы полчите лучший контроль над исполнением и ускорите его, а потом и модель лчше станет работать.
И еще если вас инженеры например перемещаються между офисами — то имеет смысл добавить фичи свзяанные с локацией.
Так же из времени вытащите фичи связанные с месяами, сезонами, днями недели и частями дня (утро, день, вечер, ночь).

Vinchi Dec 27 2018 at 23:59

molec Dec 28 2018 at 11:34

Молодцы, что пробуете столько вариантов!
Разброс между трейном и тестом очень велик, что обычно говорит либо о перетрене, либо о плохом разбиении, либо о неподходящей модели/фичах.
По-моему, стекинг начали очень рано, моделям явно не хватает качественных предикторов. У задач нет оценочного времени исполнения, заявленного постановщиком? Оно наверняка резко бы улучшило модель. Нет информации о родительском проекте, сфере реализации, количестве затронутых проектом фич и т.п.?
Обычно в учебных проектах стараются сначала дать модели объективные данные, напрямую связанные с задачей, желательно в числовом виде. То, что использовали бы вы сами для построения простой модели на бумаге. И лишь потом дотюнивают уже неплохую модель категориальными фичами, one-hot encoding, мета информацией. И уже эти неплохие сами по себе модели стекают, чтобы получить последние доли процента точности.