DAPL 22 июл 2021 в 21:22

Классификатор обращений пользователей (1C + python)

8 мин

4.8K

Python*Программирование*Машинное обучение*1С*

Туториал

Технотекст 2021

Комментарии 10

mixsture 22 июл 2021 в 21:36

Я бы на вашем месте поменял транспорт и сделал это подобием веб-сервиса. Вместо запуска файла - сделал бы общение через http json. Достоинства:

1) можно инициировать с любой стороны процесса 1с (клиент/сервер), и не только 1с

2) лучше кроссплатформенность (сейчас то бинарник должен быть в доступности платформы 1с). А так можете хоть на виртуалке линукса запустить.

3) модель можно загрузить один раз и использовать много раз (а время загрузки модели в память обычно кратно превышает время предсказания)

DAPL 22 июл 2021 в 21:46

мм..) а то идея, не думал над этим!
Спасибо за наводку

ewolf 23 июл 2021 в 00:07

Ещё один вариант, который очень простой, но довольно рабочий - использование байесовского классификатора.

Можно классифицировать на любое число классов, очень быстро работает

DAPL 23 июл 2021 в 00:24

Найду время, обязательно попробую. Будет битва алгоритмов)

VaalKIA 23 июл 2021 в 02:25

Функция ПочиститьПоле(ПреобразованноеПоле) Экспорт

Для удаления символов из строки можно делать так: СтрСоединить(СтрРазделить(строка, "!@#$%^&№", Ложь), Ложь)

DAPL 23 июл 2021 в 09:38

Ок, принято

НЛО прилетело и опубликовало эту надпись здесь

DAPL 23 июл 2021 в 09:38

Все так, 94% даже с копейками)

AlexeyKondratyev 23 июл 2021 в 09:38

Я бы предложил несколько улучшений:

В статье нет информации о сбалансированности классов. Т.к. если классы не сбалансированы, то метрика accuracy не лучший выбор.
Я бы не стал делать предобработку текста на стороне 1С. 1С очень медленно работает со строками. TfidfVectorizer по умолчанию разбирает текст на слова при помощи регулярных выражений. Это намного быстрее чем через 1С.
Попробуйте установить значение параметра ngram_range в TfidfVectorizer. Можно попробовать (1,2), (1,3) или (2,3). Суть этого параметра что кроме одиночных слов в модель добавляются еще и биграммы и/или триграммы. Т.е. выражение "проблема не решена" сейчас разбивается на "проблема", "не", "решена". А в случае использования биграмм в модель добавятся еще и словосочетания "проблема не" и "не решена".
Модель и vectorizer можно упаковать в Pipeline. Тогда будет чуть проще обучение модели, в файл можно будет сохранять не два объекта, а один (pipeline) и вызов потом проще будет. https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html

DAPL 23 июл 2021 в 09:42

Про сбалансированность пишу в коментах к коду обучения модели.
Да, Вы правы подготовка данных у меня заняла часа два) надо бы переписать.
Круто, не знал про это
Попробую
Спасибо, очень ценный отзыв!!!

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

Классификатор обращений пользователей (1C + python)

Комментарии 10

Публикации

Истории