Комментарии / Профиль yorko / Хабр

Yury Kashnitsky @yorko

Principal Machine Learning Scientist

Профиль Публикации 15Комментарии 320Закладки 136

GPT-4: Чему научилась новая нейросеть, и почему это немного жутковато

yorko 18 мар 2023 в 11:33

+11

Посмотреть

Открытый курс машинного обучения. Тема 3. Классификация, деревья решений и метод ближайших соседей

yorko 13 мар 2023 в 23:24

Желание реализовать все с нуля похвально (правда), такое задание есть в списке дополнительных. Если сразу в CART погружаться, распугнешь 90% читателей. Так что уж простите, тут все проще подается (популизм), а желающие могут погрузиться в детали.

Также могу посоветовать две статьи своего бывшего коллеги из мэйла, они как раз про деревья https://habr.com/ru/company/vk/blog/438560/ и бустинг https://habr.com/ru/company/vk/blog/438562/

Посмотреть

Сколько стоит жизнь в Канаде. Расходы за год

yorko 31 янв 2023 в 18:32

полагаю, это не совсем из ODS, а после статьи на хабре, которой поделились в ODS. Из-за хабра-эффекта вряд ли стоит надеяться на контакт Дэвида.

Посмотреть

ChatGPT как инструмент для поиска: решаем основную проблему

yorko 27 янв 2023 в 14:30

хм, петиции уже 2 года и она не особо взлетело, но недавно видел опять бугрутение насчет реплики и харрасмента со стороны эй-яй

Посмотреть

ChatGPT как инструмент для поиска: решаем основную проблему

yorko 27 янв 2023 в 14:27

еще из последнего – пошлые поручики наконец и Реплику испортили

Посмотреть

Открытый курс машинного обучения. Тема 1. Первичный анализ данных с Pandas

yorko 16 янв 2023 в 19:35

Чуть выше словами было:

Значит, прогнозируя отток клиента в случае, когда число звонков в сервисный центр больше 3 и подключен роуминг (и прогнозируя лояльность – в противном случае)

То есть все же логическое И.

Посмотреть

Открытый курс машинного обучения. Тема 1. Первичный анализ данных с Pandas

yorko 16 янв 2023 в 11:25

Местами да, контент «проседает» по качеству, так как авторов много, где-то обозначения не совпадают, где-то просто откровенно слабовата матчасть.

Но тут надо отметить, что матчасть - не самая сильная сторона курса (за этим лучше к авторским курсам обратиться, например, К.В. Воронцова). Курс нацелен на оптимальное сочетание теории и практики. Во время активных сессий были и домашние задания, в том числе и на реализацию алгоритмов (сейчас лучшие задания курса на реализацию ML алгоритмов доступны за донат на патреоне/бусти), и Kaggle соревнования, и проекты. При этом в лекциях затрагивалась и математика, но так чтоб всем было понятно, а не только аспирантам мехмата.

Посмотреть

Почему аспирантура — зло

yorko 13 сен 2022 в 12:05

Нисколько не жалею, что пошел в аспирантуру, даже несмотря на то, что академия – для того 0.1% людей (навскидку) способных порождать реально стоящие идеи.

Из плюсов:

свобода творчества, обдумывания идей. Уже потом, когда я работал исследователем в VK (ex. мэйл), но еще не защитился, мне надо было доказать одну небольшую теорему по диссеру, и тут-то я понял, насколько мозг уже зашорен, насколько сложнее просто сесть и подумать, в сравнении со временем, проведенным full-time в аспирантуре
есть время на нетворк и сторонние проекты. Я так начал преподавать машинное обучение в корпорациях и в итоге заложил основы mlcourse.ai (русская версия тут на хабре)
постоянно хочется изучать что-то новое. Сегодня читаешь про GANs и их связь с теорией игр, ботаешь теорию игр, завтра по-нормальному за статистику берешься, послезавтра – графы, на следующей неделе – теория групп. И так постоянно. Кажется, что вокруг все умнее тебя
по крайней мере в области Data Science ты можешь в аспирантуре развивать навыки, релевантные для индустрии. Я преподавал студентам Python и машинное обучение и, не дожидаясь защиты, без проблем устроился программистом-исследователем в упомянутый Mail.ru

Но надо оговориться, что я выбрал аспирантуру ВШЭ, в которой в 2013 можно было зарабатывать почти так же, как в индустрии на джун/миддл позициях. И даже на конференции летать в Аргентину.

Минусов, несомненно, тоже множество:

постоянное ощущение, что ты тупой и рисеч твой ничего не стоит, а диссер пишется в стол (а он реально пишется в стол, важны только крутые статьи, но не диссер)
свободный график часто подразумевает дедлайны в выходные, и вообще, кажется, в академии принято работать в субботу
я защищался в старом формате, с диссоветами и морем лишних бумаг – куча времени в молоко, на бюрократию
заявки на гранты и отчеты по ним... ох, слышал, на конфах солидных профессоров так и переманивают в индустрию: "подумайте! это ж вам не надо будет писать заявки на гранты. Никогда"

Посмотреть

Открытый курс машинного обучения. Тема 5. Композиции: бэггинг, случайный лес

yorko 29 авг 2022 в 16:09

Лучше поздно чем никогда: поправил описание в англоязычной статье курса, русскоязычная версия уже не поддерживается, и тут хабр тоже не дает править. Спасибо!

Посмотреть

Бутстреп и А/Б тестирование

yorko 5 авг 2022 в 12:46

Спасибо за статью!

Вопрос: почему мы стандартное отклонение в самом начале поделили на sqrt(n)? Как-то слишком низким получается стандартное отклонение. В формуле несмещенной оценки под корнем в знаменателе должно быть просто (n-1), а не n(n-1)?

В numpy – np.std(ddof=1) для несмещенной оценки

Посмотреть

Эй-Яй, крипта, MLOps и командный пет-проджект

yorko 5 июл 2022 в 16:36

Я проверил самую простую и быстро проверяемую гипотезу. То что в прогнозах тональности не хватает сигнала, чтоб только на них одних предсказывать движение курса, не значит, что признак бесполезен. Он может использоваться в более сложных моделях как дополнительный признак.

Посмотреть

Эй-Яй, крипта, MLOps и командный пет-проджект

yorko 2 июл 2022 в 10:24

Я делал дисклеймер, что в трейдинг не хочу лезть. То есть оно вроде и должно заработать, но если ещё 20x времени вложить.

Из любопытства, конечно, был эксперимент, где по сентиментам предсказывал, пойдёт ли биток вверх или вниз. Уверенный ROC=50% на валидации. Not so easy.

Зарабатывать проще было бы, продавая прогнозы тональности. Но это уже прод надо поддерживать, с клиентами общаться - выходит за рамки душевного пет-проджекта.

Посмотреть

Эй-Яй, крипта, MLOps и командный пет-проджект

yorko 1 июл 2022 в 23:42

Спасибо!

У нас не самый показательный случай, поскольку получили две машинки бесплатно - с GPU от Hostkey и без - от dstack.ai.

Машина от Hostkey была космос: Xeon E-2288G 3.7GHz (8 cores)/64Gb/1Tb NVMe SSD/RTX 3090, карта A5000 на борту. Эта тачка покрывала все нужды.

Дев и прод мы разделили физически - машинка от dstack- это один из скромных EC2 инстансов. За счёт ONNX, мы справились без GPU во время инференса.

Если б бесплатных машин не было, мы бы использовали Kaggle Notebooks / Google Colab для экспериментов и мелкую машинку для деплоя. Я на время брал Hetzner CX31 – 8 Gb RAM, 2 vCPU, 80 GB disk, 10.77 евро/мес.

Не критично, 11 евро/мес. командой осилили бы. Но если есть возможность, советую получать ресурсы за бесплатно :)

Посмотреть

Эй-Яй, крипта, MLOps и командный пет-проджект

yorko 30 июн 2022 в 16:55

да и задор есть, речь бодрая, я часто лыбу давил на встречах, вроде тимлид, надо серьезность сохранять

Посмотреть

Открытый курс машинного обучения. Тема 5. Композиции: бэггинг, случайный лес

yorko 9 мая 2020 в 01:26

Это sampling with replacement (с возвращением), не понятно, к чему комментарий, что мы разные объекты берем. При сэмплировнии с возвращением как раз разные объекты и берутся, в каждом вытаскивании независимо, поэтому возможны дубликаты. Bootstrapping.

Нигде не говорится, что модель бэггинга "обучается на 63% данных". Каждая базовая модель обучается на выборке с возвращением из исходной выборки, в которой в среднем 63% уникальных объектов.

Про OOB error действительно неточность. Спасибо, поправим.

Посмотреть

Пользовательское вознаграждение авторам Хабра

yorko 28 фев 2019 в 03:03

daleraliyorov

Википедия
Sci-Hub

Посмотреть

Другой GitHub: репозитории по Data Science, визуализации данных и глубокому обучению

yorko 26 фев 2019 в 19:47

Я не в мэйле уже. И если что-то буду писать, то скорее в блог OpenDataScience. Но мой коллега вроде неплохо справляется.

Посмотреть

Другой GitHub: репозитории по Data Science, визуализации данных и глубокому обучению

yorko 26 фев 2019 в 15:26

Можно и mlcourse.ai добавить — в том числе в мэйле курс создавался, до сих пор лекции у вас проходят. И кстати, заберите у меня права автора в хабе Mail.ru :)

Посмотреть

Знакомство с простейшей нейронной сетью и ее пошаговая реализация

yorko 26 фев 2019 в 13:36

Вот этот курс «Deep Learning на пальцах» скорее можно назвать знакомством с нейросетями, недавно стартовал — топчик, на русском, бесплатно.

Посмотреть

Открытый курс машинного обучения. Тема 4. Линейные модели классификации и регрессии

yorko 15 фев 2019 в 00:43

Функция правдоподобия как раз через плотность вероятности определяется.

Посмотреть

2 3 ...

15 16