SergeyMarin Jul 8 2019 at 15:32

Машинное обучение vs. аналитический подход

5 min

7.9K

Школа Данных corporate blogBig Data*Mathematics*Machine learning*Artificial Intelligence

+13

Comments 7

Mistx Jul 8 2019 at 16:41

Странные выводы в статье, учитывая устойчивый трэнд на автоматизацию и повышение качества предсказательных моделей именно за счет не рукотворной генерации хороших признаков, а более полного охвата исследуемой области за счет данных. Короче, профессия DataScience — это следствие временно плохой автоматизации в данной отрасли. Скоро пройдет.

SergeyMarin Jul 8 2019 at 17:42

С нашей точки зрения такой «устойчивый тренд» как раз и работает в уже довольно изученных областях. Для всех остальных процесс выглядит так:

1) Целевую переменную нужно определить — она часто не очевидна
2) Данные описывают различные участки процесса (не всегда сразу понятно какие) и свойства объектов вовлекаемых в процесс (степень участия которых в процессе не очевидна) — уже не говоря о том, что все лежит в разных системах, имеет разную нормировку итд
3) Из данных нужно собрать признаки, которые характеризуют поведение процесса: самый-самый простой пример: из времени отправления и прибытия нужно собрать время в пути и таких моментов могут быть сотни.

На подумать: пусть нужно спрогнозировать время в пути на машине от Москвы до любого заданного города России. Какие признаки будете использовать и где они лежать в готовом виде, чтобы на них «натравить» автоматический алгоритм? Что возьмете (кроме, например, времени года и времени дня): наличие скоростных/платных дорог между? Или процент от всего пути платных дорог? Среднее время в пути за какой то промежуток в прошлом? Количество промежуточных городов? Регион, где находится город? А вдруг это закрытый город и туда вообще нельзя просто так доехать? А если дорога проходит через паромную переправу и нужно закладывать расписание парома? итд…

Hardcoin Jul 8 2019 at 22:21

Через пять лет ответ на эти вопросы будет простой — всё. Мы берём все данные, которые могут иметь хоть какое-то отношение к задаче и дообучаем крупную "модель путешественника", сделанную корпорацией.

adictive_max Jul 9 2019 at 09:41

Так а кто из всего многообразия «данных вообще» отберёт те, «которые могут иметь хоть какое-то отношение к задаче»? Кто будет выбирать форматы представления этих данных? Кто будет определять, как и по каким признакам сращивать датасеты? Что делать с недостаточной или противоречивой информацией? Да и в конце концов, кто будет определять, «а что мы конкретно оптимизируем и по каким критериям будем это измерять»?

lxsmkv Jul 9 2019 at 05:10

Хотелось бы узнать, вот вы сделали прогноз с помощью созданной вами модели. Каково будет отклонение действительных значений от прогнозируемых? Об этом как-то я ничего никогда не слышу. Какова вероятность того, что семья Петровых отправившись из Москвы в Новосибирск на Ладе Калина доедут туда в спрогнозированный срок, плюс-минус два часа? Готовы сделать ставки на то, что прогноз точный? Контрольный пакет акций на это поставите? А?
Насколько прогноз на основе сложносоставной модели будет точнее, чем средняя скорость автомобиля деленая на длину пути?
И вот тут начинается, мол ну, да, это же всего лишь прогноз. Все зависит от модели. Модель можно улучшать…
Тогда какая разница, есть у меня прогноз или нет, если, собственно, когда они доедут и доедуут ли вообще, по большому счету, не известно.

Все это смахивает на гадание с применением математических методов.

Не сочтите за критику. Просто у меня стойкое ощущение того что все это — самообман. Я и сам интересуюсь симуляцией и моделированием. Однако стоит взять любую более менее сложную проблему, и все начинает упираться в модель. Я читал научные статьи где делались симуляции на основе модели, например для прогнозирования притока беженцев в Европу. Читаешь модель и думаешь: «А ведь на этом месте могли быть выбраны любые другие факторы». И понимаешь, что модель ничего общего с действительностью не имеет. Поэтому, как мне кажется, симуляция в бизнесе и не распространена.

-1

adictive_max Jul 9 2019 at 09:49

Вы видно не совсем понимаете, как это работает. Нейросети и глубокое обучение — это не иммитационное моделирование, а статистическое. Они по определению ничего не могут предсказать точно для одного отдельно взятого случая, они для этого просто не предназначены.

juryev Jul 9 2019 at 07:09

В своё время я прошёл курс у Сергея (ШАБ-2017, в СПб), могу подтвердить, что их курс действительно отличается от остальных. Наверное, это потому что они делали его на основе бизнес-опыта, а не отталкиваясь от прикладной математики, как это характерно для других курсов.