Comments 10
Заметки Дата Сайентиста
Красивое имя «Дата Сайентиста» — женское или мужское?

Ну а если серьезно, не ужели в «великом и могучем» нет определения для профессии «data scientist»? Как на счет «Заметки исследователя данных»?

На? Джаст ми? А'йт, ам'ма хэд аут
Среди типов задач есть еще поиск аномалий, или более широкое — outlier detection, вряд ли его можно свести чисто к clustering (тут скорее как в разнице между регрессией и классификацией). Например может быть один кластер и много разбросанных аномалий. Так что я за 6-ой тип.
В некоторых случаях успешно можно применить dbscan или что-то похожее. Тогда задача outlier detection выродится в задачу кластеризации
Согласен, но тут я привожу свой список того, с чем приходилось сталкиваться — вполне возможно, что здесь пропущено куда больше — просто это менее популярно, поэтому не приходилось с этим работать напрямую.

Совсем не обязательно, что у вас он будет таким же — здесь все субъективно, но делюсь опытом из жизни.
  1. Странно, каким обрзаом "flexible" превратилось в "точный". Если взять, например, задачу полиномиальной интерполяции, то есть большие сомнения, что нейронные сети дадут более точный результат, чем GAM.


  2. Есть ли объективные причины игнорировать методы, типа гауссовских процессов (GPR/GPC) или метода опорных векторов (SVR/SVC)? Или просто вопрос вкуса?


  3. Просто комментарий. Очень забавное разделение на "white/black box" в статье по ссылке. В естественных науках, в контексте применения статметодов, все методы, приведённые в статье, однозначно относятся к "black box". "White box" — это, условно говоря, "уравнения движения", т.е. чёткая детерминированная модель, описывающая какие-то законы поведения системы.


Да, любые методы, которые ничего "не знают" о системе, а модель не содержит никаких "физических" параметров системы, только методологические и выведенные из наблюдений. Из-за этого они ещё называются "parameterless models". Понятно, что если, например, есть закон, по которому величина А линейно зависит от величины В, и делается линейная регрессия, то коэффициент можно быть вполне чётко проинтерпретирован. Но в таком случае, регрессия выступает не в роли "black box" модели, а в роли метода решения уравнения известной формы (А = с В). В общем случае, параметры регрессии особого объективного смысла не имеют, кроме, разве что, оценок неопределённости.

1. Вы хотите сказать, что они не связаны? Сложность модели напрямую влияет на bias/variance trade-off, а как следствие на VC-размерность и способность модели обобщать сложные закономерности (вообще в целом)
2. Нет, это же персональный список того, с чем приходилось столкнуться и с какого угла эти задачи рассматривались
3. Да, тут это в другом смысле, мы говорим white box — когда у нас есть хорошее понимание почему модель себя ведет именно так и мы можем анализировать ее действие, и понять, что на что именно там повлияло. В естественно-научном цикле терминология отличается и это абсолютно нормально
  1. Не то, чтобы не связаны, но точно не синонимичны. Мне кажется, это тут не хватает контекста, т.е. о каких целевых функциях идёт речь. Как Вы сами пишете, усложнение модели может повысить её способность к обобщению, т.е., у более сложной модели большая гибкость, как, собственно, и написано в оригинале. Но гибкость не значит точность, ведь со сложностью растёт и дисперсия. Можно ли называть модели минимизирующие смещение, но при этом максимизирующие дисперсию, точными?

В общем, у меня не к сути статьи вопрос, а, скорее, к терминологии. На ML-кухню я смотрю с точки зрения матстатистики, и у меня иногда складывается впечатление, что люди из ML сообщества для понятий, которые уже давно изучены и названы, зачастую вводят новые термины, что не добавляет ясности.

Only those users with full accounts are able to leave comments. Log in, please.