Python
Data Mining
Big Data
Комментарии 11
0
Спасибо за то, что обратили внимание хабра на каггле.

Насколько я понимаю, лучшие результаты сейчас показывают деревья решений, а не ИНС. Не планируете перевести урок по применению Random Forest c Kaggle?
0
лучшие результаты сейчас показывают деревья решений
Для каких задач? Для некоторых современные нейросети работают очень хорошо.
+1
Конкретно в задаче распознавания изображений сверточные нейронные сети дают лучшее качество чем RandomForest.
0
Честно говоря, самостоятельно сопоставление этих подходов не проводил. Но согласен с комментарием выше о том, что глубокие сверточные сети пока показывают лучшие результаты (взять хотя бы сравнительную таблицу на yann.lecun.com/exdb/mnist/) в задачах распознавания.
0
В любом случае идея написания статьи, включающей сравнительную характеристику подходов применительно к задачам распознавания мне кажется очень интересной, так что буду стараться подготовить публикацию по этой теме.
0
Практика показывает, что на Kaggle побеждают стековые алгоритмы, а не какие-то отдельно взятые модели в чистом виде. Почти все победители тренирую несколько средних экспертов, а потом смешивают их выходы для получения лучших результатов.
0
Большущее вам спасибо за статью. Уже продолжительное время посматриваю на kaggle, но всё никак не могу стартовать — выглядит всё дико сложно, непонятно с какой стороны подступиться. Теперь вот возьмусь, всё-таки.
0
Не за что) Главное в этом деле начать, потом с каждой итерацией затягивает все сильнее.
+2
InnoCentive также проводит конкурсы на лучшую идею\разработку, где также иногда проскакивают темы в том числе на машинное обучение и обработку данных в таких областях, как химия, биология, медицина итп. Поддерживает как одиночное, так и командное участие.
Например, DARPA там проводит конкурс на лучшее прогнозирование распространения вируса Чикунгунья.
+2
Рекомендуется новичкам также обратить внимание на задачи Титаник и word2vec — по ним на kaggle.com есть хорошее описание. Хорошего качества зачастую можно достичь простыми методами и инструментами, если долго просто вглядываться в данные и применять нехитрые техники. Особенно хороша для этого задача Титаник
0
  1. nolearn, который, упоминается в посте сильно повзрслел за поледнее время. Так что интерфейс, упомянутый выше и точность предсказаний сильно изенились.
  2. В комментариях выше упоминались «деревья решений» для этой задачи, это один из моих любимых алгоритмов, но для изображений, на данный момент, никто ничего лучше cNN не придумал, особенноо всилу того, что существуют достойные пакеты, для работы с ними, такие как nolearn и keras. Это я тому, что а данной проблеме XBGoost или RandomForest с аугументацией данных выдал мне 97%, простая нейроннная сеть 98%, а cNN — 99%.
Только полноправные пользователи могут оставлять комментарии.  , пожалуйста.