palantiron 21 янв 2015 в 09:36

Как начать работу в Kaggle: руководство для новичков в Data Science

4 мин

144K

Python*Data Mining*Big Data*

Из песочницы

+19

Комментарии 11

ServPonomarev 21 янв 2015 в 11:28

Спасибо за то, что обратили внимание хабра на каггле.

Насколько я понимаю, лучшие результаты сейчас показывают деревья решений, а не ИНС. Не планируете перевести урок по применению Random Forest c Kaggle?

barmaley_exe 21 янв 2015 в 11:57

лучшие результаты сейчас показывают деревья решений

Для каких задач? Для некоторых современные нейросети работают очень хорошо.

sallyruthstruik 21 янв 2015 в 12:55

Конкретно в задаче распознавания изображений сверточные нейронные сети дают лучшее качество чем RandomForest.

palantiron 21 янв 2015 в 13:26

Честно говоря, самостоятельно сопоставление этих подходов не проводил. Но согласен с комментарием выше о том, что глубокие сверточные сети пока показывают лучшие результаты (взять хотя бы сравнительную таблицу на yann.lecun.com/exdb/mnist/) в задачах распознавания.

palantiron 21 янв 2015 в 13:35

В любом случае идея написания статьи, включающей сравнительную характеристику подходов применительно к задачам распознавания мне кажется очень интересной, так что буду стараться подготовить публикацию по этой теме.

BelBES 21 янв 2015 в 13:57

Практика показывает, что на Kaggle побеждают стековые алгоритмы, а не какие-то отдельно взятые модели в чистом виде. Почти все победители тренирую несколько средних экспертов, а потом смешивают их выходы для получения лучших результатов.

andymitrich 21 янв 2015 в 13:00

Большущее вам спасибо за статью. Уже продолжительное время посматриваю на kaggle, но всё никак не могу стартовать — выглядит всё дико сложно, непонятно с какой стороны подступиться. Теперь вот возьмусь, всё-таки.

palantiron 21 янв 2015 в 13:28

Не за что) Главное в этом деле начать, потом с каждой итерацией затягивает все сильнее.

thezcore 21 янв 2015 в 14:55

InnoCentive также проводит конкурсы на лучшую идею\разработку, где также иногда проскакивают темы в том числе на машинное обучение и обработку данных в таких областях, как химия, биология, медицина итп. Поддерживает как одиночное, так и командное участие.
Например, DARPA там проводит конкурс на лучшее прогнозирование распространения вируса Чикунгунья.

НЛО прилетело и опубликовало эту надпись здесь

ternaus 16 авг 2015 в 09:14

nolearn, который, упоминается в посте сильно повзрслел за поледнее время. Так что интерфейс, упомянутый выше и точность предсказаний сильно изенились.
В комментариях выше упоминались «деревья решений» для этой задачи, это один из моих любимых алгоритмов, но для изображений, на данный момент, никто ничего лучше cNN не придумал, особенноо всилу того, что существуют достойные пакеты, для работы с ними, такие как nolearn и keras. Это я тому, что а данной проблеме XBGoost или RandomForest с аугументацией данных выдал мне 97%, простая нейроннная сеть 98%, а cNN — 99%.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

Как начать работу в Kaggle: руководство для новичков в Data Science

Комментарии 11

Публикации

Истории