Pull to refresh

Comments 21

Такое впечатление, что алгоритмы на основе множества мелких частиц входят в моду. Давайте составим список таких алгоритмов, просто для закладки. Я знаю про:

— random forest (см. статью)
— particle filter
— муравьиный алгоритм
— генетический алгорим можно отнести к этой категории?
Оценочное суждение: Суровые физики проив. Работал с одним таким. Не доверяет он генетике.
Мой знакомый-то? ФОПФ, физик от бога и советский человек))
Мне кажется генетика — закон природы. Физик должен доверять законам природы.
Только Ландау Лифшиц, Только Хардкор ))
Тут уже полный оффтоп пошел.
Я понимаю Вашу точку зрения).
Я обучался на физика. В своё время, защитил диплом по методам оптимизации с использованием ГА. И я им не доверяю :o)
Я иногда и себе не доверяю…
Только Байес, только хардкор!:)
Сначала прочёл заголовок как «Знания предсмертной области бесполезны». Прочёл пол статьи, перечитал заголовок, т.к. что-то явно не сходилось. :)
предсказание будущего миф или реальность?
Хорошая статья, спасибо что перевели. Довольно типичная картина для машинного обучения — классификация или прогнозирование лучше работает когда никто не мешает :).
Похоже я с этим человеком на одной волне — люблю черные ящики.

И сколько делал систем обработки и классификации, практически всегда random forest таки да лучший.
SVM, нейронки, генетика, Байес, все имеет свои границы, но чтобы просто взять и получить работающий результат не заморачиваясь — лучше RF ничего нету.
Уже лет пять его по дефолту первым пробую и больше ничего потом не ищу.
И скорость работы у него отличная и сам отбор атрибутов делает.

А при этом, в первый раз читаю мнение практика, что RF таки да имеет сильное преимущество перед остальными системами.
State of the art подходы к распознанию цифр, например, все так же основываются на нейросетях (см. dropout).
Чем дальше копаться в этой области, тем больше видно взаимосвязей. RandomForest случайным образом выбрасывает независимые переменные при обучении каждого дерева, dropout случайным образом выключает нейроны при обучении сети.
Я еще не пробовал, но мне показалось, что RF подходят к задаче классификации, не для регрессии.
В теории и для регрессии подходят, но на практике — не скажу что так уж хорошо.
Самый идеальный вариант — бинарные классификаторы, на мультиклассе уже качество ниже.

Тут фишка в другом — каждое дерево строит приближенную модель распределения вероятности, и в ансамбле из этого можно вытащить многое.
Так что стоит говорить об использовании RF для создания модели, а дальше уже делать с этой моделью можно что угодно.

Ну и работают они на больших масштабах, если 10 семплов и три атрибута — это не случай RF.
Плюс скорость абсолютно обезбашенная.

У меня практический пример вот прямо сейчас.
SVM — 1000 атрибутов, детекция до 600-1000 сэмплов в минуту на ядро.
RF — 100K атрибутов, детекция 200К семплов за 9 секунд на одном ядре.
Качество детекции одинаковое, но на нестандартных выборках RF чуть стабильнее.

Как бы при такой разнице вопрос вообще не стоит об SVM.
И это даже не BigData, всего-то 100К атрибутов.

Нейронку не пробовал (и не планирую), но не думаю, что нейронка потянет такие скорости.
Чтобы мы не называли нейронкой — это ведь на самом деле группа очень разных методов с общим «брендом».

Собственно вообще не знаю какой технологией можно обеспечить такие скорости при таком качестве.
Ради таких комментариев и есть смысл переводить чужие итервью. Респект!
Заголовок сенсационный, статья однобокая.

В качестве контрпримера приведу Netflix Prize. Товарищи потратили уйму денег и не один год, победители сделали ансамбль из сотни индивидуально подогнанных моделей, и из этого всего перформанса Netflix сейчас использует только пару компонентов и то не в полную силу. Потому что оказывается, что уменьшение среднеквадратичного отклонения на 0.01% позволяет выиграть конкурс, но пользователям на это наплевать. Им важнее знать, почему рекомендован вот этот фильм. Чёрный ящик ответа на этот простой вопрос не даёт.

Та ж фигня происходит в финансовой сфере. Каждый год прибегает новый стартап и пытается продать свою революционную модель. Big data, Hadoop, все трёхбуквенные сокращения, зашибись как работает на обучающей выборке. Почему — не знаем, чёрный ящик. Через год оно работать перестаёт, почему — тоже никто не знает. Чёрный ящик же. Причём часто перестаёт работать быстро и с катастрофическими последствиями. Которые никто не ожидал — чёрный ящик же, ничего внутри не видно, как там риски считать.

Netflix отвечает на вопрос рекомендован вот этот фильм? Мне например интересно, почему магазины постоянно рекомендуют не то что мне нужно, но они не дают ответа на этот вопрос? :) Модели нужно регулярно тестировать, в случае если они используются на данных, которые имеют свойство сильно изменятся со временем. Деревья решений, это вполне себе интерпретируемый алгоритм.

Sign up to leave a comment.

Articles