palantiron Jan 21 2015 at 09:36

Как начать работу в Kaggle: руководство для новичков в Data Science

4 min

144K

Python*Data Mining*Big Data*

From sandbox

+19

Comments 11

ServPonomarev Jan 21 2015 at 11:28

Спасибо за то, что обратили внимание хабра на каггле.

Насколько я понимаю, лучшие результаты сейчас показывают деревья решений, а не ИНС. Не планируете перевести урок по применению Random Forest c Kaggle?

barmaley_exe Jan 21 2015 at 11:57

лучшие результаты сейчас показывают деревья решений

Для каких задач? Для некоторых современные нейросети работают очень хорошо.

sallyruthstruik Jan 21 2015 at 12:55

Конкретно в задаче распознавания изображений сверточные нейронные сети дают лучшее качество чем RandomForest.

palantiron Jan 21 2015 at 13:26

Честно говоря, самостоятельно сопоставление этих подходов не проводил. Но согласен с комментарием выше о том, что глубокие сверточные сети пока показывают лучшие результаты (взять хотя бы сравнительную таблицу на yann.lecun.com/exdb/mnist/) в задачах распознавания.

palantiron Jan 21 2015 at 13:35

В любом случае идея написания статьи, включающей сравнительную характеристику подходов применительно к задачам распознавания мне кажется очень интересной, так что буду стараться подготовить публикацию по этой теме.

BelBES Jan 21 2015 at 13:57

Практика показывает, что на Kaggle побеждают стековые алгоритмы, а не какие-то отдельно взятые модели в чистом виде. Почти все победители тренирую несколько средних экспертов, а потом смешивают их выходы для получения лучших результатов.

andymitrich Jan 21 2015 at 13:00

Большущее вам спасибо за статью. Уже продолжительное время посматриваю на kaggle, но всё никак не могу стартовать — выглядит всё дико сложно, непонятно с какой стороны подступиться. Теперь вот возьмусь, всё-таки.

palantiron Jan 21 2015 at 13:28

Не за что) Главное в этом деле начать, потом с каждой итерацией затягивает все сильнее.

thezcore Jan 21 2015 at 14:55

InnoCentive также проводит конкурсы на лучшую идею\разработку, где также иногда проскакивают темы в том числе на машинное обучение и обработку данных в таких областях, как химия, биология, медицина итп. Поддерживает как одиночное, так и командное участие.
Например, DARPA там проводит конкурс на лучшее прогнозирование распространения вируса Чикунгунья.

UFO just landed and posted this here

ternaus Aug 16 2015 at 09:14

nolearn, который, упоминается в посте сильно повзрслел за поледнее время. Так что интерфейс, упомянутый выше и точность предсказаний сильно изенились.
В комментариях выше упоминались «деревья решений» для этой задачи, это один из моих любимых алгоритмов, но для изображений, на данный момент, никто ничего лучше cNN не придумал, особенноо всилу того, что существуют достойные пакеты, для работы с ними, такие как nolearn и keras. Это я тому, что а данной проблеме XBGoost или RandomForest с аугументацией данных выдал мне 97%, простая нейроннная сеть 98%, а cNN — 99%.

Show the best of all time