Articles / Bookmarks / Profile of Aleron75 / Habr

Алерон @Aleron75

Data Scientist маминой подруги

Profile Publications 10Comments 103Bookmarks 17

atsyhan_minsk Jul 11 2023 at 22:14

Тестируем на реальных кейсах Chatgpt Code Interpreter

Easy

5 min

13K

Python*Desktop environments*Algorithms*Artificial IntelligenceVisual programming*

From sandbox

Меня зовут Андрей Цыган - я не программист, я смотрю на технологии ИИ с точки зрения человека, кто знает что хочет, но не имеет навыков это сделать через код.

Я протестировал новый плагин Code Interpreter на реальных задачах в бизнесе и остался приятно удивлён.

Посмотреть кейсы применения

+11

slivka_83 Oct 3 2022 at 21:19

ClearML | Туториал

9 min

17K

Data Mining*Big Data*Machine learning*

Tutorial

Data Mining Season

ClearML — это довольно мощный фреймворк, основным предназначением которого является трекинг ML-экспериментов. Для рассмотрения его возможностей построим небольшой пайплайн обучения ML-модели...

+11

NewTechAudit Jan 10 2022 at 09:13

Градиентный бустинг с CatBoost (часть 2/3)

8 min

18K

Programming*Algorithms*Machine learning*

В первой части статьи я рассказал про понятие градиентного бустинга, библиотеки, с помощью которых можно реализовать данный алгоритм и углубились в одну из этих библиотек. Сегодня продолжим разговор о CatBoost и рассмотрим Cross Validation, Overfitting Detector, ROC-AUC, SnapShot и Predict. Поехали!

До этого момента мы мерили качество на каком-то конкретном fold’e (конкретной выборке), то есть взяли разделили нашу выборку на обучающую и тестовую, это не совсем корректно, вдруг мы взяли какой-то непрезентативный кусок нашего датасета, на этом самом куске мы получим хорошее качество, а когда модель будет работать с реальными данными, то с качеством все будет крайне грустно. Дабы избежать этого, необходимо использовать Cross Validation.

Разобьём наш датасет на кусочки и дальше будем обучать модель столько раз, сколько у нас будет кусочков. Сначала обучаем модель на все кусках кроме первого, нам нем будет происходить валидация, потом на втором будет происходить такая же ситуация и все это дело будет повторяться до последнего кусочка нашей выборки:

mrtirax Sep 18 2022 at 15:14

Обучение модели Stable Diffusion текстовой инверсии с помощью diffusers

5 min

23K

Python*GitHub*Graphic design*Artificial IntelligenceThe future is here

From sandbox

Листая интернет на наличие интересных технологий в области нейронных сетей и различного искуства,я наткнулся на пост в Твиттере, в котором Suraj Patil объявил о возможности обучения модели Stable Diffusion текстовой инверсии используя всего 3-5 изображений.

+12

KonstantinKG Jun 19 2018 at 23:12

Соревнование Kaggle Home Credit Default Risk — анализ данных и простые предсказательные модели

33 min

19K

Python*Data Mining*Big Data*Machine learning*

From sandbox

На датафесте 2 в Минске Владимир Игловиков, инженер по машинному зрению в Lyft, совершенно замечательно объяснил, что лучший способ научиться Data Science — это участвовать в соревнованиях, запускать чужие решения, комбинировать их, добиваться результата и показывать свою работу. Собственно в рамках этой парадигмы я и решил посмотреть внимательнее на соревнование по оценке кредитного риска от Home Credit и объяснить (начинающим дата саентистам и прежде всего самому себе), как правильно анализировать подобные датасеты и строить под них модели.

Читать дальше →

+17

boygenius Jan 13 2022 at 15:34

Интерпретация моделей и диагностика сдвига данных: LIME, SHAP и Shapley Flow

38 min

29K

Algorithms*Machine learning*Open Data Science corporate blogStatistics in ITArtificial Intelligence

В этом обзоре мы рассмотрим, как методы LIME и SHAP позволяют объяснять предсказания моделей машинного обучения, выявлять проблемы сдвига и утечки данных, осуществлять мониторинг работы модели в production и искать группы примеров, предсказания на которых объясняются схожим образом.

Также поговорим о проблемах метода SHAP и его дальнейшем развитии в виде метода Shapley Flow, объединяющего интерпретацию модели и многообразия данных.

+34

boygenius Feb 14 2022 at 13:30

Проблемы современного машинного обучения

41 min

42K

Machine learning*Open Data Science corporate blogPopular scienceArtificial IntelligenceNatural Language Processing*

Technotext 2021

Во многих популярных курсах машинного и глубокого обучения вас научат классифицировать собак и кошек, предсказывать цены на недвижимость, покажут еще десятки задач, в которых машинное обучение, вроде как, отлично работает. Но вам расскажут намного меньше (или вообще ничего) о тех случаях, когда ML-модели не работают так, как ожидалось.

Частой проблемой в машинном обучении является неспособность ML-моделей корректно работать на большем разнообразии примеров, чем те, что встречались при обучении. Здесь идет речь не просто о других примерах (например, тестовых), а о других типах примеров. Например, сеть обучалась на изображениях коровы, в которых чаще всего корова был на фоне травы, а при тестировании требуется корректное распознавание коровы на любом фоне. Почему ML-модели часто не справляются с такой задачей и что с этим делать – мы рассмотрим далее. Работа над этой проблемой важна не только для решения практических задач, но и в целом для дальнейшего развития ИИ.

+102

boygenius Jan 21 2022 at 14:02

CatBoost, XGBoost и выразительная способность решающих деревьев

42 min

51K

Programming*Mathematics*Machine learning*Open Data Science corporate blogArtificial Intelligence

Сейчас существенная часть машинного обучения основана на решающих деревьях и их ансамблях, таких как CatBoost и XGBoost, но при этом не все имеют представление о том, как устроены эти алгоритмы "изнутри".

Данный обзор охватывает сразу несколько тем. Мы начнем с устройства решающего дерева и градиентного бустинга, затем подробно поговорим об XGBoost и CatBoost. Среди основных особенностей алгоритма CatBoost:

• Упорядоченное target-кодирование категориальных признаков
• Использование решающих таблиц
• Разделение ветвей по комбинациям признаков
• Упорядоченный бустинг
• Возможность работы с текстовыми признаками
• Возможность обучения на GPU

В конце обзора поговорим о методах интерпретации решающих деревьев (MDI, SHAP) и о выразительной способности решающих деревьев. Удивительно, но ансамбли деревьев ограниченной глубины, в том числе CatBoost, не являются универсальными аппроксиматорами: в данном обзоре приведено собственное исследование этого вопроса с доказательством (и экспериментальным подтверждением) того, что ансамбль деревьев глубины N не способен сколь угодно точно аппроксимировать функцию $y = x_1 x_2 \dots x_{N+1}$ . Поговорим также о выводах, которые можно из этого сделать.

+48

ptsecurity Jul 29 2022 at 10:56

Payment Village на PHDays 11: как хакеры ломают банкоматы

7 min

3.8K

Information Security*IT systems testing*Payment systems*Positive Technologies corporate blogBug hunters*

Technotext 2022

Форум Positive Hack Days 11, проходивший 18–19 мая 2022 года, был по-настоящему грандиозным. В конкурсе по взлому банкоматов в зоне Payment Village борьба развернулась не на шутку — 49 участников, это очень круто! Призовой фонд в этом году составлял 50 000 рублей, и его забрал человек с ником Igor, сломавший виртуальные машины первым. Кстати, его даже не было на мероприятии! :)

В этом году простор для действий был намного больше, и каждая задача на виртуальной машине имела большое количество решений. Благодарим всех участников, а для тех, кто не был на PHDays, приводим ссылки на виртуальные машины и обзор решений.

Кстати, обзор представлен без ссылок на конкретные виртуальные машины. Не сомневаемся, вы с легкостью поймете, какое решение к какой машине подходит. К тому же так у вас будет возможность самим порешать таски.

Читать райтап

Nester Jul 18 2022 at 17:04

Государство уничтожает классифайды

2 min

93K

Legislation in ITIT-companies

"Зарегулировать -> Обесценить -> Передать нужным людям". Такую такику государство выбрало в отношении крупных классифайдов. Самый крупный, конечно, Авито, но достанется и другим - ЦИАНУ и Юле например.

Сперва Горелкин придумал, что надо изгнать всех иностранцев из капитала компаний (пострадает, например, ЦИАН). И забрать себе их персональные данные - для этого сервисы принудят поставить государственный счетчик, собирающий данные пользователей. Напомню, закон о счётчике (я писал в своём канале подробно о нём) прямо позволяет "создавать государственные сервисы" на базе таких данных. Закон приняли в первом чтении 5 июля.

Но этого показалось мало - в пятницу экстренно внесли и уже приняли в первом чтении совсем радикальный закон. Он разрешит публиковать цифровые объявления ТОЛЬКО через нового "государственного оператора объявлений". Это ставит крест на бизнесе Авито, Юлы и других. Причина - защитить безопасность страны. Она страдает, потому что можно разместить вредную информацию. Мотивация у закона в пояснительной записке именно такая.

Автора закона, единоросса Кирьянова, четыре раза спросили о примерах таких вредных объявлений. Он не назвал ни одного, но сказал, что "надо действовать превентивно". Кроме того, зацените комментарий автора закона - "неизвестно, где обрабатываются данные россиян, но уверен, что они (данные) пересекают границу. Неизвестно, «что из анализа больших данных будет … достоянием недружественных государств».

Это притом, что все данные Авито хранятся в России, а несколько принятых его же партией законов и так УЖЕ запрещают передавать передавать данные за границу. А закон Горелкина и так принуждал классифайды отвечать за контент. Очевидно, что автор просто не в курсе, что он собрался регулировать.

+392

346

X5Tech Dec 17 2021 at 17:55

Стратификация. Как разбиение выборки повышает чувствительность A/B теста

15 min

31K

Python*Mathematics*Statistics in ITX5 Tech corporate blog

Всем привет! На связи команда ad-hoc аналитики X5 Tech.

Сегодня подробно обсудим применение стратификации для повышения чувствительности оценки AB экспериментов.

Digital_Design Jun 24 2022 at 18:21

Воспроизводимость ML экспериментов с помощью MLflow project

12 min

4.9K

Open source*Python*Digital Design corporate blogMachine learning*

Tutorial

Всем привет! Меня зовут Игорь Дергунов и я руководитель инновационной лаборатории Digital Design, которая занимается оптимизацией бизнес-процессов с помощью методов машинного обучения. В процессе работы над проектами в данной сфере быстро приходит осознание необходимости учета и структурирования проводимых экспериментов. В нашем случае мы воспользовались инструментом MLflow, который предоставляет функциональность для отслеживания экспериментов и управления жизненным циклом моделей машинного обучения.

И все шло хорошо, результаты проверки гипотез (параметры обучения, метрики, артефакты и модели) сохранялись, их было удобно наглядно сравнивать, и все были довольны. Так продолжалось достаточно долгое время, пока не возникла необходимость вернуться к эксперименту, который выполнялся какое-то время назад и был приостановлен.

pxeno May 20 2020 at 10:54

Как облегчить себе жизнь при использовании Git (а также подборка материалов для глубокого погружения)

13 min

35K

Open source*VK corporate blogGit*Version control systems*GitHub*

Translation

Tree of Dragons II by surrealistguitarist

Для тех, кто каждый день использует Git, но чувствует себя неуверенно, команда Mail.ru Cloud Solutions перевела статью фронтенд-разработчика Шейна Хадсона. Здесь вы найдете несколько трюков и советов, которые могут немного облегчить работу с Git, а также подборку статей и мануалов более продвинутого уровня.

Читать дальше →

+62

uchitel May 25 2021 at 05:40

Погружаемся в статистику вместе с Python. Часть 2. Распределение Стьюдента

18 min

33K

Python*Mathematics*Data visualization*

Доброго времени суток, хабраледи и хабраджентельмены! В этой статье мы продолжим погружение в статистику вместе с Python. Если кто пропустил начало погружения, то вот ссылка на первую часть. Ну, а если нет, то я по-прежнему рекомендую держать под рукой открытую книгу Сары Бослаф "Статистика для всех". Так же рекомендую запустить блокнот, чтобы поэкспериментировать с кодом и графиками.

Как сказал Эндрю Ланг: "Статистика для политика – все равно что уличный фонарь для пьяного забулдыги: скорее опора, чем освещение." Тоже самое можно сказать и про эту статью для новичков. Вряд ли вы почерпнете здесь много новых знаний, но надеюсь, эта статья поможет вам разобраться с тем, как использовать Python для облегчения самостоятельного изучения статистики.

Продолжить погружение!

+11

kesn Jan 24 2022 at 17:55

Питон против Безумного Макса, или как я посты на Хабре замораживал

8 min

36K

Information Security*Website development*HabrPython*Programming*

Я помню тот старый Хабр. Логотип был похож на комок шерсти после отрыжки кота, я писал какие-то наивные статьи и мне казалось, что я очень крут (нет), а народ пилил годные технические полотна текста, и чтобы узнать инфу про чёрные точки на лице, нужно было посещать другие сайты. Это было прикольно.

Потом что-то пошло не так, начали появляться какие-то полутехнические статьи, и (далее моя интерпретация событий) чтобы сохранить Хабр, всех нетехнических писателей заманили в один корабль и отправили ~~куда подальше~~ на гиктаймс - подобно тому, как врач ампутирует руку пациенту, чтобы спасти жизнь. В данном случае, правда, врач подержал эту руку, посмотрел на неё, а потом пришил обратно. Что из этого вышло?

Что из этого вышло

+371

193

Aleron75 Jan 11 2022 at 09:19

5 грязных трюков в соревновательном Data Science, о которых тебе не расскажут в приличном обществе

5 min

24K

Python*Data Mining*Big Data*

Поговорим про способы жульничества в Data Science.

+56

Aleron75 Dec 31 2021 at 18:01

Как увеличить точность модели с 80% до 90%+ (мой опыт)

4 min

16K

Big Data*Data Engineering*

From sandbox

Разберем способы поднять точность модели!

Привет, чемпион! Возможно, перед тобой сейчас стоит задача построить предиктивную модель, или ты просто фармишь Kaggle, и тебе не хватает идей, тогда эта статья будет тебе полезна!

Наверное, уже только ленивый не слышал про Data Science и то, как модели машинного обучения помогают прогнозировать будущее, но самое крутое в анализе данных, на мой взгляд, - это хакатоны! Будь-то Kaggle или локальные соревнования, везде примерно одна задача - получить точность выше, чем у других оппонентов (в идеале еще пригодную для продакшена модель). И тут возникает проблема...