Comments / Profile of paramonov_ruvds / Habr

How to become an author

@paramonov_ruvds

User

Profile Publications 8Comments 16Bookmarks 662

Заметки Датасатаниста: реляционные vs связанные данные

paramonov_ruvds Dec 16 2020 at 15:54

Согласен, слишком упрощенно вышло.

Про классические БД — все так, там CWA везде и всегда.

C LinkedData — тут по прежнему бинарная логика да/нет, так что нельзя сказать, что closed world assumption совсем не применим — если я попрошу ВикиДата посчитать все материки, то он их насчитает 6, а не «не знаю сколько» — ведь у меня нет доказательства, что все остальные объекты не материки (в случае с open world у нас по сути есть вывод как плюса, так и минуса — все, что посередине unknown)

+1

Заметки Датасатаниста: что делать, если перед вами оказалась NP-полная задача

paramonov_ruvds Nov 26 2020 at 03:08

Если глядя на проблему, вы в состоянии провести анализ задачи на степень аппрокисимируемости, сложность вероятностных алгоритмов для распределения средних входных данных или идентифицировать параметрическую сложность задачи и оценить распределение в среднем на своих данных для параметров, то пожалуй вам не нужны вводные гайды «что делать, если ваша задача может быть NP-полной» :)

+2

Заметки Датасатаниста: что делать, если перед вами оказалась NP-полная задача

paramonov_ruvds Nov 26 2020 at 01:25

Про это есть подробнее в приведенных ссылках.

+1

Работа фрилансером в Бельгии

paramonov_ruvds Oct 21 2020 at 14:40

Подтверждаю, что такие такие ЗП вполне есть на рынке и в целом, наверное, в Бельгии ЗП выше чем в Германии, за исключением Берлина, Мюнхена и ко — но это исключительно мои наблюдения.

0

Заметки Дата Сатаниста: честность модели

paramonov_ruvds Oct 20 2020 at 14:33

По-моему это честная схема, когда тебе предлагают писать на темы интересные тебе самому. Сообщество получает интересный контент, а заказчик — рекламу.

Иначе бы этот цикл заметок у меня еще месяцами пылился бы на полке.

+5

Заметки Дата Сатаниста: честность модели

paramonov_ruvds Oct 20 2020 at 12:48

Да.

+7

Заметки Дата Сайентиста: как измерить время забега марафона лежа на диване

paramonov_ruvds Sep 30 2020 at 23:04

Код на скорую руку, поэтому немного тяп-ляп

df = df[~df.result.isin(["DQ", "DNF"])]
df.reset_index(drop=True, inplace=True)
df['result'] = pd.to_timedelta(df['result'], unit="h")
df['time'] = df['result'].apply(lambda x: x.seconds/60)
df['sex'] = df.category.apply(lambda x: x.strip()[0])
df['age'] = df.category.apply(lambda x: int(x.strip()[1:]))

+1

Заметки Дата Сайентиста: как измерить время забега марафона лежа на диване

paramonov_ruvds Sep 29 2020 at 22:18

Всегда пожалуйста

0

Заметки Дата Сайентиста: с чего начать и нужно ли оно?

paramonov_ruvds Sep 29 2020 at 22:18

Про community рекомендую вступить в Open Data Science — там прям много людей.

А если по материалу — мне кажется наиболее разумным начать с простых вводных материалов на Udacity и потихоньку начинать работать над каким-то своими проектами, которые кажутся интересными — а там потихоньку и к более сложным вещам переходить.

0

Заметки Дата Сайентиста: с чего начать и нужно ли оно?

paramonov_ruvds Sep 18 2020 at 14:18

А можно никуда и не ходить, я прямо из дома работаю :)

+1

Заметки Дата Сайентиста: с чего начать и нужно ли оно?

paramonov_ruvds Sep 18 2020 at 00:57

Смотря что считать «ближайшие» — следующие два-три года проекты никуда деться не должны, а прям дальше бы я не загадывал

+1

Заметки Дата Сайентиста: на что обратить внимание при выборе модели машинного обучения — персональный топ-10

paramonov_ruvds Sep 17 2020 at 12:27

1. Вы хотите сказать, что они не связаны? Сложность модели напрямую влияет на bias/variance trade-off, а как следствие на VC-размерность и способность модели обобщать сложные закономерности (вообще в целом)
2. Нет, это же персональный список того, с чем приходилось столкнуться и с какого угла эти задачи рассматривались
3. Да, тут это в другом смысле, мы говорим white box — когда у нас есть хорошее понимание почему модель себя ведет именно так и мы можем анализировать ее действие, и понять, что на что именно там повлияло. В естественно-научном цикле терминология отличается и это абсолютно нормально

0

Заметки Дата Сайентиста: на что обратить внимание при выборе модели машинного обучения — персональный топ-10

paramonov_ruvds Sep 17 2020 at 12:18

Согласен, но тут я привожу свой список того, с чем приходилось сталкиваться — вполне возможно, что здесь пропущено куда больше — просто это менее популярно, поэтому не приходилось с этим работать напрямую.

Совсем не обязательно, что у вас он будет таким же — здесь все субъективно, но делюсь опытом из жизни.

0

Заметки Дата Сайентиста: персональный обзор языков запросов к данным

paramonov_ruvds Sep 17 2020 at 12:11

м?

0

Заметки Дата Сайентиста: персональный обзор языков запросов к данным

paramonov_ruvds Sep 17 2020 at 12:11

Опыт же персональный, я прям так и написал, что делюсь тем, что мне помогло:

но тут у меня исключительно субъективный личный опыт, у вас, может быть, все совсем по-другому.

мне часто помогает разложить процесс обработки и data extraction в виде простых операторов в голове и на бумаге, а потом переложить его в код и запросы — если вам не помогает, то у вас просто другой подход, я же не обещал, что это решит все проблемы и поможет всем

0

Заметки Дата Сайентиста: персональный обзор языков запросов к данным

paramonov_ruvds Sep 17 2020 at 12:08

Это же персональный список того, что реально приходилось использовать — ни на что большее не претендую, я прям так и написал в первых предложениях.

0