Комментарии 5
Слишком большое количество признаков может привести к тому, что ваш алгоритм переобучится, а слишком малое к тому, что он недообучится.

Это так не работает. Скорее даже работает наоборот. Большое число признаков требует намного бОльшую нейросеть, чтобы запомнить все правильные варианты вместо вычисления зависимостей (переобучение). А малое число признаков — как раз будет более склонно к переобучению.
Большая нейросеть на 100к строках обучения быстрее переобучится, нежели маленькая нейросеть на 100к (пусть и с меньшим числом признаков). Но тут, конечно, нужно смотреть на то как и насколько мы уменьшаем. Я к тому, что избыточно большое число признаков может ухудшить результат и/или потребовать намного больше времени на обучение.
Случайный лес подразумевает создание нескольких деревьев решений с использованием наборов исходных данных. Затем модель выбирает режим (большинство) всех предсказаний каждого дерева решений.


Насколько я помню, чаще всего это работает по-другому. Тут идет в ход идея, что каждая следующая модель может использоваться для более тонкой подстройки предыдущей. Поэтому при наборе моделей в ансамбль — самая первая модель является как бы главной и получает наибольший коэффициент участия в результате, а все последующие имеют снижающиеся коэффициенты участия — т.е. как бы «корректируют» решения главной модели.
Нашел описание: AdaBoost из пакета scikit-learn
Есть и так и так. Раньше использовали только усреднение (или голосование). Несколько лет назад начали использовать бустинг (XGBoost) — каждая следующая корректирует (улучшает) результаты предыдущей. В режиме регресии корректировки каждого следующего дерева (как правило) становятся всё меньше. В режиме классификации я наблюдал случаи когда даже сотое дерево делало довольно большие поправки (но там результирующая функция строится сложнее, нежели простое суммирование в регрессии).

В большинстве случаев бустинг лучше, но простое усреднение тоже иногда выигрывает.
Ну AdaBoost работает как вы описали, а случайные лес так, как написано в посте
В это и отличие Бустинга от Бэггинга
Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

Информация

Дата основания
Местоположение
Россия
Сайт
otus.ru
Численность
51–100 человек
Дата регистрации

Блог на Хабре