AlexSerbul Jun 23 2017 at 17:10

Как нам помогают нейронные сети в технической поддержке

7 min

14K

Битрикс24 corporate blogMachine learning*

+14

Comments 33

frees2 Jun 23 2017 at 17:43

Вам не дадут «списать» модель нейросети даже за ящик водки.

Может кто из молодёжи не понимает, думает это фейк у них такой. Так вот, поголовно расплачиваются, коньяком, стоит ящик, заместо одеколона использую, ибо коньяк дорогущий, а мы конъяков не потребляем, водкой не комифлю им.
Директорским стулом кожаным, сломался через три года. Всё на балансе. Путевкой в Амазонию ( думали крокодилы и пираньи съедят и расплачиваться не придётся…

-2

AlexSerbul Jun 23 2017 at 18:20

Я пробовал, но не работало. Говорят: задача поставлена не математически, иди дальше думай :-) А клиенты продолжаю звонить.

MTonly Jun 23 2017 at 18:30

Комментарий сгенерирован нейросетью? %)

ls1 Jun 26 2017 at 08:44

… сразу после распознавания ящика коньяка

begemot_sun Jun 23 2017 at 17:43

Для авто-саппорта идеален Акинатор. Почему до сих пор нет внедрений?

AlexSerbul Jun 23 2017 at 18:20

Ну тут же не авто-саппорт. Тут — автоматический роутинг обращения в нужную категорию по его содержимому.

it2manager Jun 23 2017 at 18:54

Вы пишите, что выбрали сеть потому что… Можно в цифрах, точность Байеса, SVM, сети и что вы там еще использовали на вашем наборе данных. Сколько у вас классов?

AlexSerbul Jun 23 2017 at 18:54

Не, лень было их сравнивать. Я ссылку на статью со сравнениям дал. Классов под сто.

it2manager Jun 24 2017 at 09:47

Вопрос собственно возник из-за того, что мы также используем автоматическую классификацию сообщений. Используется слегка модифицированный байес. Классов — 60, точность — 82%. Обучение классификатора занимает — 5 минут на core i5. Алгоритм реализован без привлечения программистов :) Вопрос — насколько необходимо городить огород и исследовать нейронки, когда простые алгоритмы справляются очень неплохо?

AlexSerbul Jun 24 2017 at 11:32

«Работает — не трогай!» :-). Наивный байес прекрасен, из апостериорных вероятностей слов он апроксимирует априорную вероятность конкретного раздела, но… делает это наивно — не учитывая возможные связи слов. В фразе «да пошел ты на ...» люди и N-nram модели увидят подходящее слово, а байес — нет :-) Тем не менее, он неплохо работает же и часто, вместе с скорее более точной но дольше обучаемой SVM используется как baseline.

Мы в нашем случае употребили нейронку по следующим причинам:
— сразу несколько языков
— в перемешку идет код, верстка, мат-перемат, благословения и текст
— нужна устойчивость к опечаткам (bag of char ngram3), т.е. стемминг Портера на слова не подошел бы
— нейронку можно улучшать не включая мозг: развивая архитектуру и повышая ее точность (например идти в сторону 1D свертки или эмбеддингов, paragraph vectors ...), а байеса как?

Ну и одновременно мы развиваем направление помощников в диалогах, тоже на нейронках, вот пример:

У меня вопрос, а какие у Вас тексты, на скольки языках? Если вставки кода в них?

frees2 Jun 24 2017 at 16:59

А почему просто нельзя попробовать, посмотреть как модифицируются фразы, предложения?
Несколько языков, не будучи филологом, и то понимаю сложность, нет решений у IBM.
Да вам памятник рядом с Пушкиным поставят. (, если не только мат удаляете.)

Полно тут дизайнеров без портфолио, как сапожники без сапог, про бога рассказывают, других учат, только сами не умеют. Товарищи в вышиванках гигантские базы на XML обрабатывают, и уверяют что так работает, и тоже других учат.

AlexSerbul Jun 24 2017 at 17:04

ну… NLP это сложная AI-complete задачка, ее может и решат лет через 10 000. Если было бы можно ифами и логикой это делать — давно бы делали. А нужно уже сейчас языки понимать.

frees2 Jun 24 2017 at 20:38

«Полно тут дизайнеров без портфолио», это конечно не литературно, так пишу. Если поменять слова то и эмоциональность немного изменится.

Знакомый говорил, язык изобретают. Сначала будет перевод на некий логический (семантический?) язык (хранение, обработка информации на нём удобнее, если надо — снова преобразование в человеческий язык), возможно и роботы на нём станут общаться.

it2manager Jun 25 2017 at 00:25

Текст на русском и английском (менее 3%). Есть вставки кодов ошибок dotnet. В качестве токенизации используем TF-SLF (http://injoit.org/index.php/j1/article/viewFile/118/91).

it2manager Jun 25 2017 at 00:31

Сама «игрушка» написана на питоне. Алгоритм таков: Убираем Стоп-слова (предлоги, союзы, местоимения, фразы «без смысла», типа: с уважением, спасибо, благодарны и т.д. ), словарь небольшой -> нормализуем (pymorphy2) -> считаем TF-SLF-> вычисляем вероятности-> сохраняем в БД.

AlexSerbul Jun 25 2017 at 00:33

спасибо, очень интересно

it2manager Jun 25 2017 at 01:00

Было желание поиграться с SVM, но никак руки не дойдут, как я упоминал выше, не программист и не математик -образование хорошее :), времени нет :). А если разница будет на 2-3% то жаба задушит за потраченное время.

AlexSerbul Jun 25 2017 at 01:04

Далеко не все настоящие программисты по образованию пишут правильный код и не все математики по образованию — хорошо математят :-) Я — электро-механик, но с 12 лет пишу код и ООчень люблю математику и посвящаю ей свободное время. Нейронки, судя по рекламным брошюрам :-) позволяют не заниматься предварительной обработкой фич, а лить на вход все, что есть, и сеть сама расставит веса. В этом, насколько я понимаю, их основная сила — универсальное оружие :-)

it2manager Jun 25 2017 at 01:19

Универсальное оружие это да, но есть ограничения: у нас в некоторых категориях по 15-20 документов, для нейронки, исходя из того, что я читал, это очень мало… как следствие, может быть некорректная классификация, поэтому остановился на байесе (быстро и сердито :-) ) и на вкусное оставил SVM.

AlexSerbul Jun 25 2017 at 01:29

да, согласен, Вы правы. А не пробовали логистическую регрессию? Она побыстрее и попроще машины опорных векторов может быть, кстати

unicast Jun 23 2017 at 19:38

Саш, продам лопату ;-)

AlexSerbul Jun 23 2017 at 19:39

:-)

shurupkirov Jun 24 2017 at 09:40

Может вы обращения и научились автоматически классифицировать, но 1 уровень техподдержки у вас просто "мертвый".
Вы бы релизы так тестировали, может, наконец-то, в релизах не было бы косяков тогда

erwins22 Jun 24 2017 at 16:08

выставите соревнование на киндл.

AlexSerbul Jun 24 2017 at 17:05

спасибо за идею!

alex4321 Jun 25 2017 at 03:04

Может таки каггл? Или я упустил что-то?

AlexSerbul Jun 25 2017 at 12:39

Это хорошая идея, спасибо, обсудим — но может более просто? Мы предлагаем более прямой путь к монетизации коллегам датасайнтистам: без каггла и прочих посредников сразу выкладывать решения и модули на наши маркетплейсы: https://www.bitrix24.ru/apps/ и https://marketplace.1c-bitrix.ru/. Клиенты будут их скачивать, использовать в своих продуктах и разработчикам модулей деньги платить.

erwins22 Jun 27 2017 at 20:41

соревнование vs занудная работа?

AlexSerbul Jun 28 2017 at 11:20

Сейчас остро стоит вопрос монетизации ML. Чтобы третья волна не оказалась очередным хайпом для рекламы фундаментальной науки — соревнований недостаточно, нужно рукава закатить и порешать еще сотню нестандартных задачек из реальности :-)

erwins22 Jun 28 2017 at 14:14

никто не говорит, что задачки должны быть абстрактными.
Одно дело работать с набором таблиц и соревноваться в рейтинге с другими спецами более высокого уровня и совсем другое дело убивать время на написания тучи кода с непонятным результатом.

Это тоже самое что пробежать марафон вместе с толпой народа или каждый день ходить по 5 км на работу и домой.

sci_nov Jun 24 2017 at 22:01

Если использовать регуляризацию, похожую на действие алкоголя в мозге человека (dropout), то нейросети адекватно сходятся и не сильно страдают от переобучения

Мудро :).

AlexeyCaTHaR Jun 25 2017 at 12:35

Нейросеть это конечно хорошо, но лучше бы ввели простую кнопку = вы ответили чушь, только, чтобы не получить втык за выход из времени ответа на обращение…

AlexSerbul Jun 25 2017 at 12:36

Отличная идея, кстати, спасибо!