AGrin Mar 13 2018 at 13:06

Как быстро написать и выкатить в продакшн алгоритм машинного обучения

15 min

14K

Python*Data Mining*Big Data*Machine learning*

Tutorial

From sandbox

+11

Comments 4

almaredan Mar 14 2018 at 20:47

Зачем обучаться с предположением, что у вас 100 видов материалов, когда в обучающей выборке их 57? У оставшихся 43 фич ведь будут случайные веса и, если при использовании отсутствующие при обучении типы материалов возникнут, они могут непредсказуемо повлиять на качество предсказания. Не лучше было бы при подгрузке материалов трубы проверять, присутствовали ли эти материалы при обучении?

AGrin Mar 14 2018 at 20:51

Ну это первый, пристрелочный вариант. Нужный для того, чтобы показать общий стиль мышления и то, как выкатить потом все это дело в прод. Планируется вторая (а может быть и дальнейшие) части — там буду уже заниматься более тонкой оптимизацией, глубже экспериментировать с фичами и моделями. В частности и избавляться от лишних неинформативных значений. Спасибо большое за замечание, оно сэкономит мне немного времени в будущем :)

kovriga25 Mar 15 2018 at 01:56

Спасибо за интересную статью. Возможно, лучше было бы использовать модуль csv из стандартной библиотеки для работы с csv файлами,

AGrin Mar 15 2018 at 02:04

Я рад, что Вам понравилось. Буду писать еще.

Я предпочитаю контролировать код, который пишу насколько это возможно и использую библиотеки типа pandas или csv только в случаях, когда вручную быстро написать нужный участок кода проблематично — например в случае очень больших файлов или текстовых значений с запятыми. Довольно печально потратить несколько часов (а то и дней) на поиски причины несоответствия метрики на валидации и в продакшене и, наконец, обнаружить, что проблема состояла в том, что та или иная библиотечная функция работает «немного» не так, как предполагалось.

Show the best of all time