Pull to refresh
Comments 4
Зачем обучаться с предположением, что у вас 100 видов материалов, когда в обучающей выборке их 57? У оставшихся 43 фич ведь будут случайные веса и, если при использовании отсутствующие при обучении типы материалов возникнут, они могут непредсказуемо повлиять на качество предсказания. Не лучше было бы при подгрузке материалов трубы проверять, присутствовали ли эти материалы при обучении?
Ну это первый, пристрелочный вариант. Нужный для того, чтобы показать общий стиль мышления и то, как выкатить потом все это дело в прод. Планируется вторая (а может быть и дальнейшие) части — там буду уже заниматься более тонкой оптимизацией, глубже экспериментировать с фичами и моделями. В частности и избавляться от лишних неинформативных значений. Спасибо большое за замечание, оно сэкономит мне немного времени в будущем :)
Спасибо за интересную статью. Возможно, лучше было бы использовать модуль csv из стандартной библиотеки для работы с csv файлами,
Я рад, что Вам понравилось. Буду писать еще.

Я предпочитаю контролировать код, который пишу насколько это возможно и использую библиотеки типа pandas или csv только в случаях, когда вручную быстро написать нужный участок кода проблематично — например в случае очень больших файлов или текстовых значений с запятыми. Довольно печально потратить несколько часов (а то и дней) на поиски причины несоответствия метрики на валидации и в продакшене и, наконец, обнаружить, что проблема состояла в том, что та или иная библиотечная функция работает «немного» не так, как предполагалось.
Only those users with full accounts are able to leave comments. Log in, please.