Как стать автором
Обновить
131
0
Yury Kashnitsky @yorko

Principal Machine Learning Scientist

Отправить сообщение

Желание реализовать все с нуля похвально (правда), такое задание есть в списке дополнительных. Если сразу в CART погружаться, распугнешь 90% читателей. Так что уж простите, тут все проще подается (популизм), а желающие могут погрузиться в детали.

Также могу посоветовать две статьи своего бывшего коллеги из мэйла, они как раз про деревья https://habr.com/ru/company/vk/blog/438560/ и бустинг https://habr.com/ru/company/vk/blog/438562/

полагаю, это не совсем из ODS, а после статьи на хабре, которой поделились в ODS. Из-за хабра-эффекта вряд ли стоит надеяться на контакт Дэвида.

хм, петиции уже 2 года и она не особо взлетело, но недавно видел опять бугрутение насчет реплики и харрасмента со стороны эй-яй

еще из последнего – пошлые поручики наконец и Реплику испортили

Чуть выше словами было:

Значит, прогнозируя отток клиента в случае, когда число звонков в сервисный центр больше 3 и подключен роуминг (и прогнозируя лояльность – в противном случае)

То есть все же логическое И.

Местами да, контент «проседает» по качеству, так как авторов много, где-то обозначения не совпадают, где-то просто откровенно слабовата матчасть.

Но тут надо отметить, что матчасть - не самая сильная сторона курса (за этим лучше к авторским курсам обратиться, например, К.В. Воронцова). Курс нацелен на оптимальное сочетание теории и практики. Во время активных сессий были и домашние задания, в том числе и на реализацию алгоритмов (сейчас лучшие задания курса на реализацию ML алгоритмов доступны за донат на патреоне/бусти), и Kaggle соревнования, и проекты. При этом в лекциях затрагивалась и математика, но так чтоб всем было понятно, а не только аспирантам мехмата.

Нисколько не жалею, что пошел в аспирантуру, даже несмотря на то, что академия – для того 0.1% людей (навскидку) способных порождать реально стоящие идеи.

Из плюсов:

  • свобода творчества, обдумывания идей. Уже потом, когда я работал исследователем в VK (ex. мэйл), но еще не защитился, мне надо было доказать одну небольшую теорему по диссеру, и тут-то я понял, насколько мозг уже зашорен, насколько сложнее просто сесть и подумать, в сравнении со временем, проведенным full-time в аспирантуре

  • есть время на нетворк и сторонние проекты. Я так начал преподавать машинное обучение в корпорациях и в итоге заложил основы mlcourse.ai (русская версия тут на хабре)

  • постоянно хочется изучать что-то новое. Сегодня читаешь про GANs и их связь с теорией игр, ботаешь теорию игр, завтра по-нормальному за статистику берешься, послезавтра – графы, на следующей неделе – теория групп. И так постоянно. Кажется, что вокруг все умнее тебя

  • по крайней мере в области Data Science ты можешь в аспирантуре развивать навыки, релевантные для индустрии. Я преподавал студентам Python и машинное обучение и, не дожидаясь защиты, без проблем устроился программистом-исследователем в упомянутый Mail.ru

Но надо оговориться, что я выбрал аспирантуру ВШЭ, в которой в 2013 можно было зарабатывать почти так же, как в индустрии на джун/миддл позициях. И даже на конференции летать в Аргентину.

Минусов, несомненно, тоже множество:

  • постоянное ощущение, что ты тупой и рисеч твой ничего не стоит, а диссер пишется в стол (а он реально пишется в стол, важны только крутые статьи, но не диссер)

  • свободный график часто подразумевает дедлайны в выходные, и вообще, кажется, в академии принято работать в субботу

  • я защищался в старом формате, с диссоветами и морем лишних бумаг – куча времени в молоко, на бюрократию

  • заявки на гранты и отчеты по ним... ох, слышал, на конфах солидных профессоров так и переманивают в индустрию: "подумайте! это ж вам не надо будет писать заявки на гранты. Никогда"

Лучше поздно чем никогда: поправил описание в англоязычной статье курса, русскоязычная версия уже не поддерживается, и тут хабр тоже не дает править. Спасибо!

Спасибо за статью!

Вопрос: почему мы стандартное отклонение в самом начале поделили на sqrt(n)? Как-то слишком низким получается стандартное отклонение. В формуле несмещенной оценки под корнем в знаменателе должно быть просто (n-1), а не n(n-1)?

В numpy – np.std(ddof=1) для несмещенной оценки

Я проверил самую простую и быстро проверяемую гипотезу. То что в прогнозах тональности не хватает сигнала, чтоб только на них одних предсказывать движение курса, не значит, что признак бесполезен. Он может использоваться в более сложных моделях как дополнительный признак.

Я делал дисклеймер, что в трейдинг не хочу лезть. То есть оно вроде и должно заработать, но если ещё 20x времени вложить.

Из любопытства, конечно, был эксперимент, где по сентиментам предсказывал, пойдёт ли биток вверх или вниз. Уверенный ROC=50% на валидации. Not so easy.

Зарабатывать проще было бы, продавая прогнозы тональности. Но это уже прод надо поддерживать, с клиентами общаться - выходит за рамки душевного пет-проджекта.

Спасибо!

У нас не самый показательный случай, поскольку получили две машинки бесплатно - с GPU от Hostkey и без - от dstack.ai.

Машина от Hostkey была космос: Xeon E-2288G 3.7GHz (8 cores)/64Gb/1Tb NVMe SSD/RTX 3090, карта A5000 на борту. Эта тачка покрывала все нужды.

Дев и прод мы разделили физически - машинка от dstack- это один из скромных EC2 инстансов. За счёт ONNX, мы справились без GPU во время инференса.

Если б бесплатных машин не было, мы бы использовали Kaggle Notebooks / Google Colab для экспериментов и мелкую машинку для деплоя. Я на время брал Hetzner CX31 – 8 Gb RAM, 2 vCPU, 80 GB disk, 10.77 евро/мес.

Не критично, 11 евро/мес. командой осилили бы. Но если есть возможность, советую получать ресурсы за бесплатно :)

да и задор есть, речь бодрая, я часто лыбу давил на встречах, вроде тимлид, надо серьезность сохранять

Это sampling with replacement (с возвращением), не понятно, к чему комментарий, что мы разные объекты берем. При сэмплировнии с возвращением как раз разные объекты и берутся, в каждом вытаскивании независимо, поэтому возможны дубликаты. Bootstrapping.


Нигде не говорится, что модель бэггинга "обучается на 63% данных". Каждая базовая модель обучается на выборке с возвращением из исходной выборки, в которой в среднем 63% уникальных объектов.


Про OOB error действительно неточность. Спасибо, поправим.

daleraliyorov


  1. Википедия
  2. Sci-Hub

Я не в мэйле уже. И если что-то буду писать, то скорее в блог OpenDataScience. Но мой коллега вроде неплохо справляется.

Можно и mlcourse.ai добавить — в том числе в мэйле курс создавался, до сих пор лекции у вас проходят. И кстати, заберите у меня права автора в хабе Mail.ru :)

Вот этот курс «Deep Learning на пальцах» скорее можно назвать знакомством с нейросетями, недавно стартовал — топчик, на русском, бесплатно.

Функция правдоподобия как раз через плотность вероятности определяется.

1
23 ...

Информация

В рейтинге
Не участвует
Откуда
Den Haag, Zuid-Holland, Нидерланды
Работает в
Дата рождения
Зарегистрирован
Активность