Как стать автором
Обновить
150
2
Vladimir Iglovikov @ternaus

CEO

Отправить сообщение
Думаю, что генетика важнее. Но хочется думать, что с логическим мышлением, так же как и с музыкальным слухом или коэффициентом интеллекта. Основа заложена генетикой, но в определённых пределах можно улучшить.

Вот такой вам дам частный пример, с которым пришлось столкнуться, я даже не уверен, что его можно обобщить.

Когда я в бакалавриате учил физику нас жёстко гоняли по математике все много лет, причем в режиме: формулировка теоремы => доказательство => пример
И доказательства я уже не помню, но там были такие финты ушами и хитроумные приёмчики, что голова трещала. Но трещала ровно до того момента, пока не менялась манера моего мышления и доказательства больше не выглядели хитроумными, а выглядели очень даже элегантными.

А в США я столкнулся с тем, что физиков учат математике по-другому, формулировка теоремы => пример применения, то есть у 95% теорем только формулировка, без доказательства. И кроме того у меня было стойкое чувство, что аспирантам физического факльтета, с коими я имел честь общаться немного не хватает логики в расуждениях, причём не только о науке, но и в целом. Возможно это связано с тем, что многие выросли в религиозных семьях, не знаю.

Конечно, не факт что существует причинно следственная связь между отсутствием proof based преподавания математики у тех физиков с которыми я общался и моим субъективным восприятием их логических построений, но я думаю, что она всё-таки есть.

Это я к тому, что как ненавидимое детьми сольфеджио развивает музыкальный слух, так же и принудительное погружение в предметы, которые разговривают на языке математики может развить логическое мышление, правда в определённых пределах.
Я бы сказал что, структурная реформа произойдёт когда число абитуриентов поступающих на технические специальности превысит число абитуриентов поступающих на гуманитарные специальности, а что, именно, программирование или молекулярная биология — это несущественно.

Я к гуманитарным специальностям со всем уважением, и вобще считаю литературу самым полезным для себя школьным предметом, но тем не менее, видится мне, что технические специальности в среднем лучше развивают логическое мышление, а вот именно тех кто умеет логически мыслить, а не просто верить и не хватает, причём везде, в том числе и среди министров.
Я бы с удовольствием, но боюсь что с работы не отпустят, так что с этой задачей буду пытаться справиться самостоятельно, а отрыве от коллектива.
Очень приятно видеть, что В Москве такой серьёзный подход к подготовке специалистов по машинному обучению. Жаль в других городах это не так.

Планируется онлайн трансляция с лекций?
.
А в каком смысле хакатон международный?
Замечательно пишете.

Вы в других соревнованиях не участвовали? Титаник это хорошо, но просто. Было бы интересно почитать ваш разбор какого-нибудь более насыщенного соревнования.
Нашёл, я, таки, работу, даже текст на эту тему написал. Муторное это всё-такие дело работу искать, когда у тебя чистое резюме, незамутнённое опытом работы резюме…
Чем занимается наш стартап:
Представьте, что компания, поставляет вам электичество имеет некий прибор, который этой компании выдаёт график потребления энергии, как функцию от времени с некой периодичностью. Например PG & E, которая поставляет электроэнергию в дома на тихоокеанском побережье США снимает такие данные ра в 15 минут.

Так вот существует задача, которая называется energy disaggregation, которая по идее по данному графику скажет когда и сколько было потрачено на чайник, на телевизор, кондиционер, обогрев бассейна, и т.д.

Тема модная, потому что в доллары хорошо переводится.

Вот наш стартап этим и занмается.

Тут я бы мог наплести как мы применяем конволюционные нейронные сети, чтобы предсказать что и когда применяется. И есть у меня мнение, что с точки зрения точности фиг кто их переплюнет. Похожая по стилю задача решалась вот на этом соревновании и победитель именно так к этой задаче и подошёл.

Но, что мы имеем на самом деле:

Вообще всё написано на Java, за исключением самой главной части, а именно алгоритма, который занимается этим самым disaggregation.

До недавнего времени в компании был только один Data Scientist — девушка, которая писала весь код, который этим energy disggregation и занимался. Причём писала она его на MatLab, причём всилу того, что своий код она понимала, и в то же время ей надо было постоянно воплощать какие-то фичи. И как следствие мы имеем кучу скриптов на матлабе, которые как-то друг с другом связаны, без тестов, без документации, с непонятными названиями переменных, ну и багов тоже хватает. Команда, которая занимается продажами своё дело знает. Поэтому куча проектов, с различными требованиями и меньше их не становится. И больших проблем не было, пока девушка пахала за троих, но потом её переманил Facebook и тут-то все и прищурились и до сих пор глаза толком раскрыть не могут.

Сейчас у нас два офиса. Один в кремниевой долине — второй в Индии. В Индии в основном члены Data Science.

Матлаб я в глаза никогда не видел, пока не начал тут работать => знание python, Java тут пригогдилось. В третьем языке проще разбираться чем в первом.

Алгоритмы и структуры данных — не сильно, но иногда проскакивает. Где лучше object, а где достаточно structure, нужен ли тут binary search и почему HashMap тут сработает на ура.

Машинное обучение где-то используется, на базовом уровне, но кусок проекта над которым я работаю с этим не связан, так что я не смотрел пока. Но где-то в коде используется SVM, где-то kd-tree, так что хотя бы для того, чтобы понимать, что происходит, знание алгоритмов машинного обучения на каком-то уровне требуется.

Статистика — по мелочам.

Как я понимаю, во многих компаниях дело обстоит так — Data Scientist что-то изобретает, потом объясняет это Software Developer и тот уже используя production quality code это и воплощает.

Тут не так. Компания на той стадии, когда происходит трансоформация из какого-то быстрорастущего хаоса, который позволяется на начальных стадиях, во что-то более медленное, но структурированное c возможностью обобщения.

Так как этот energy diasggregation тема мощная и молодая по уму надо выделять отдельную группу, которая бы занималась разработкой алгоритмов, а не мешать и разработку, и вполощение. Но тут до этого пока далеко, поэтому фиксим баги, воплощаем новые фичи.

Из каких-то моих специфическизх навыков, ну например физика, или машинное обучение тут ничего не используется. Просто надо быстро соображать и уметь писать код. Но хитрый. В смысле — вот задача, алгоритм придумай сам. И сейчас из-за того, что у меня нет глубоких знаний в Signal Processing и Computer Vision, изобретаю какие-то велоcипеды, параллельно пытаясь прокачать background в этих направлениях.

На тему матлаба. Всем понятно, что с него надо слезать. Но чтобы переписать коду нужно время и сильная мотивация, а тут есть работающий код, который просто где-то как-то правится или модифицируется. Но, видится мне, скоро встрянем по масштабируемости, точности алгоритмов, ещё чему-нибудь и, возможно, это добавит мотивации для перехода. По уму, конечно, надо прототипировать на питоне, а в production на Java. Меня в матлабе больше всего напрягает остутствие вменяемой IDE, типа IntelliJ, приходится делать очень много лишних движений, которые сильно понижают продуктивность.

Сильно помогает умение игнорировать людей. Начиная от того, что встать и уйти в пять вечера, не смотря на то, что принято уходить позже и заканчивая тем, что я пропускаю видеоконференции в неурочное время, а в силу того, что у нас и Индии разница во много часовых поясов, такие назначаются достаточно часто. Но пока мне вслух за это никто не предъявил, желания тратить своё личное время на работу я не вижу.
Из науки я и не уходил. Я ушёл из академической среды. Учёный, это всё-таки не профессия — это диагноз. По сути профессора и постдоки занимаются тем, что находят задачу, которую ещё никто никогда не решал, решают её и публикуют отчёт(статью). Профессора ещё и преподают время от времени.

=> Преподавание — захочется мне повещать у доски и просветить слушателей на какую-нибудь тему — организую meetup или выступлю на какой-нибудь конференции по Data Science. Сейчас их море. Ну или в том году я время от времени проводил уроки танцев в университетском клубе. При желании можно что-нибудь провести в какой-нибудь местной танцевальной студии.
Так что вопрос недостатка преподавания в моей жизни решается.

=> Статьи..… Статьи публиковать надо. Чтобы опубликовать статью нужен материал для публикации и текст, который опишет ваши результаты. Статьи по профильной тематике могут помочь при поиске работы. У меня в планах опубликовать что-нибудь на тему нейронных сетей. Но пока я работаю над задачей. Как будет ближе к чему-то публикуемому буду думать. Написание текста статьи и последующая полировка занимает много времени. Как с этим быть я пока не знаю. Есть у меня пара идей как это время минимизировать, но в данном случае буду решать проблемы по мере их поступления.

Собираюсь ли я вернуться в физику в том смысле, что работать над какими-то физическими задачами? Пока я этого не вижу. Ну разве что через алгоритмы машинного обучения. Например, недавнее соревнование про распад тау лептона на кагле. Победители вполне могут публиковаться.

Можно ли вернуться в академическую среду после того, как из неё ушёл? Не знаю, не пробовал, но по идее это должно быть ещё и проще. Хотя бы потому что у тех кто варится в академической среде, как правило, отвратительный уровень программирования, что приводит к очень неэффективному расходованию времени. Как следствие, я предполагаю, если вы умееть писать хорший код и физику ещё не забыли — вам будут сильно рады. Но опять же я не знаю, не пробовал.

Насколько я знаю, в США постдоки финансируются с грантов, которые выбил профессор той группы, в которой данный постдок работает. Почему платят мало? Вот хорший текст на эту тему, правда по английски. Сводится он к тому, что в силу различных причин желающих получить позицию постдока очень много, поэтому на них можно экономить и платить им мало.

Американская наука в замечательном состоянии. Есть деньги, есть люди. И, что самое главное, система построена так, что двинать науку там эффективно. Возможно, лет через 10, различные online курсы потеснят финансовые потоки, которе текут от студентов к университету и что-то поменяется. Или если все выпускники технических факультетов ломанутся куда-нибудь, например, в Data Science и никто не захочет оставаться в академии, то тоже что-нибудь поменяется. Но столько желающих из Китая, Индии, Европы, и т.д. которые готовы быть постдоками в США и заниматься любимой наукой, причём так, что им ещё и платили…
Спасибо.

Ну, например, потому что машинное обучение мне интересно, нейронные сети так и вообще заставляют моё сердце биться чаще. А вот Java с фреймворками, во моей душе отклика вообще не находит. И как только зарплата проходит определённый минимальный уровень, на первый план выходит удовольствие от работы. У разных людей этот уровень разный. Я знаю пару постдоков у которых глаза горят от того, чем они занимаются. И плевали они на низкую зарплату. Они счастливы. И в то же время я знаю людей, которые зарабатывают прилично, но и работа им не нравится, и на личную жизнь это накладывает отпечаток, в общем деньги это важно, но не очень.

На тему русских — это да. Тут их море. На той неделе в корейскую баню в Santa Clara ходил, там вообще не одного не русскоговорящего не было, даже кореец, который на входе сидит и деньги собирает и тот что-то мог по русски сказать.

Не было у меня опыта поиска работы. Пикники и прочие грамотные идеи они просты, когда кто-то вам об этом скажет, но они совершенно не очевидны, если пытаться на них самому выйти. Плюс все мои знакомые, русские и не только, были исключительно в академической среде.

Приспичит новую работу искать, буду действовать по-другому. Но это будет потом.
Зря вас минусуют, хороший вопрос, поэтому попытаюсь ответить развёрнуто.

Пост написан на смеси английского и русского по ряду причин.

  • Язык действительно со временем забывается, вернее вы его помните, но английские аналоги вам кажутся более подходящими к месту.
  • Имена собственные, такие как названия университетов или компаний, я предпочитаю сохранять на языке оригинала, например, чтобы не думать, как лучше написать БЕркли или БЁркли.
  • Какие-то слова я не знаю как перевести, ну например Compuer Science. Поэтому в указанном вами предложении я оставил все научные направления на английском, оправдываясь тем, что я их воспринимаю как технические термины. Или например слово meetup. Вот как его перевести? «Тематический междусобойчик»? Вроде бы и то, а вроде бы и нет.
  • Какие-то слова я переводить не хочу. Например, слово email. Вроде бы можно электронной почтой, но это длинно. Но с другой стороны я лихо перевожу graduate school как аспирантуру, хотя так делать нельзя.
  • Околотехнические термины как Natural Language processing, Deep learning, Data Scientist перевести можно, но не хочется. Пусть уж они будут на языке оригинала.
  • Physics, Math, Biology — я могу смело перевести на русский, а вот Economics уже нет, потому что, если рассматривать их как научные направления, то, что в России, что в США, физики, математики и биологи занимаются очень похожими вещами, а вот экономиcты — нет. Поэтому я и предпочитаю рассмативать их в различном контексте.
По-моему, так и сказал. Вообще нежеление подстраиваться под чувтсва и настроение собеседника не раз мне аукнулось при прохождении onsite интервью.

Выражение про «объявление войны» это не я придумал. Не так давно Обама вышел на публику в костюме в светлых тонах, и это сильно муссировалось в американских СМИ. Один из репортёров высказался на тему его костюма, как я про эти часы. Контекст практически идентичный, поэтому я на автомате и сказал, не подумав о ранимой душе своего интервьюера.
Ссылками на адекватные онлайн курсы по Signal Processing, или названия книг не поделитесь?
Насколько я знаю, существуют три типа соревнований, которые там можно разместить:
  1. kaggle inclass — это для тех, кто используют платформу кагла для обучения машинному обучению либо в университете, либо в какой-либо компании, либо в каком-нибудь онлайн курсе.
  2. Какое-либо учебное заведение публикует задачу которая имеет научный интерес.
  3. Компании, которые хотят получить алгоритм, либо нанять Data Scientist'a (Recruiting competitions), либо просто для души. — за эти соревнования компании платят большие и не очень деньги.


А зачем каглу конкурс, который организует физическое лицо без финансовой подпитки кагла? Это просто не вписывается в их бизнес модель.

Чем более данные зашифрованы — тем меньше feature engineering и больше численных методов. То есть на практике сложнее применять идеи, вынесенные с кагла.

Полностью согласен.

Я в армии каждый день думал — копыта откину. Толком не ешь, не спишь и вечно чем-то озадачен. Однако организм, штука такая, привыкает. Адаптировался и за два года зарядился так что энергии на 10 лет хватило.

Это я к тому, что если продержаться через период, когда хочется «слиться» и расслабиться, то организм перестроится и общая производительность вырастает.
Это всё-таки ближе к историческому максимуму, я и сам не ожидал, что столько потяну. Обычно веса сильно меньше, но и за спиной я слежу больше. А гибкость — это да. С этим всегда проблемы были. До пола коньчиками пальцев рук я никогда достать не мог. Видимо надо начинать в этом напралении, в смысле йогой заняться. Судя по интернету она тоже мозг очищает.
Год назад, когда диссертацию кандидатскую начал писать тягал железо. Сильные физические нагрузки хорошо мозг очищают.

Но до норматива второго разряда по powerlifting так и не до тянул. (Остановился на Жим: 102.5, присед 140, тяга 185 и переключился обратно на скалолазание)

Спортивная фигура однозначно помогает в академической среде. И профессура, и студенты, которым преподаёшь относятся с бОльшим уважением.

Теперь буду думать, как сделать так, чтобы у меня кубики пресса появились, а то пока там только пузо, но тут одним спортом не обойдёшься, надо начинать думать, что я ем и когда я ем.
Собственно вопрос автору:
1. Оно вообще котируется среди работодателей?
2. Про курсеру HR знает?


Я эти курсы начале года по три за раз. Основная цель была навтыкать сертификаты в LinkedIn и в резюме.

Потенциальные работодатели засчитывали это за «стремление учиться чему-то новому», но не как «большой практический опыт».

Вообще это достаточно отвратная специализация в том мысле, что преподаватели из них так себе, до уровня курсов ну Coursera, которые читает Robert Sedgewick им как до луны.

Графики, которые они показывают, как примеры визуализации по уровню всё-таки ниже приемлимого. Цвета, размер шрифтов, да и общее оформление — ни разу не publication quality.

Раньше у этой специализации не было внятной альтернативы, но сейчас… Что на Coursera, что на edX море курсов которые, видится мне, более достойные чем эта специализация. И новые курсы появляются чуть не каждый день.

Короче специализацию брать можно, но лучше взять что-то похожее, но в лучшем исполнении.
Вы не могли бы раскрыть свой опыт участия в соревнованиях на кагле? Ну или указать ваш nickname?

Это прозвучит немного грубо, но ваш комментарий сильно напоминает мнение, моих знакомых, которые с каглом знакомы только по наслышке и их мнение сводится к :«Пастернака не читал, но осуждаю.» Но вы, вроде как участвовали, поэтому хотелось бы узнать в каких именно соревнованиях и с каким успехом.

  • Оверфит — это когда ошибка на тестовой выборке значительно больше, чем на train set. Хитрые комбинации различных алгоритмов — это не overfitting, это ensembling. И если overfitting — это в принципе плохо, то ensembiling — по ситауации. При составлении ансамбля теряется инетрпретируемость и масштабируемость, но часто повышается точность предсказания. И использование ансамблей оправдано, если нужна именно зашкаливающая точность. Да, в большинстве практических задач интерпретируемость и масшабируемость важнее, чем дополнительная пара процентов. Во многих задачах точность 82% или 84% — вообще неотличима. Но, сореванования, они про то, сколько можно выжать из предложенных данных. Своего рода benchmark. Можете воспринимать соревнования, как научную задачу:«Какова максимальная точность модели, на этих данных?» Существует куча статей на тему MNIST dataset, и прочих общеизвестных данных. Тут ровно то же. Поэтому как правило каждое соревнование на кагле приводит к статьям в резензируемых научных журналах и вуступлениям на конференциях.
  • Ещё вот такой нюанс. Недостаточно взять и натравить сложный алгоритм на исходные данные(исключение работа с изображениями, используя нйронные сети и то не всегда). Точность предсказания основывается на двух ступенях: обработка дынных и собственно сама модель. Те, кто в топе, в первую очередь пытаются работать с данными, и это даёт наибольшый выход, а уже потом, когда фичи новые не придумать, то начинаются жёсткие численные методы с ансамблями и прочей экзотикой. Но, ка кправило, в топ 10%, можно выехать на простом алгоритме и правильно обработанных данных. Иногда первая ступень, то есть очистка данных, создание признаков и т.д. Не работает. Вот просто не работает. Пример: Соревнование otto. Все признаки анонимезированы, пропущенных значений нет. Все признаки важны. Комбинирование признаков тоже ничего не даёт. Да, на практике такое, наверно, не встречается. Ну и что? Соревнование было про алгоритмы и как с ними правильно работать. Так что с точки зрения практики это было больше про знания, нежели про применения этого алгоритма в компании, которая предоставила данные. Это Кагл. есть данные, есть метрика, есть вопрос — крутитесь как хотите. Титулы, звания, возраст, опыт работы — в пользу бедных. Важен результат. Распространёно причетание на форуме на тему, данные плохие, поэтому и моя модель плохая, и вообще смысла работать над этими данными нет. Так вот не надо причитать. Надо стороить модель, которая будет наиболее точной. Тут все в одной лодке. Для всех данные зашифрованы. Но это не мешает заниматься построением модели.
  • На тему "… а потом просто считают результат как...". Тут меня смущает слово «просто». Построение ансамблей — это дело тёмное, наука, сама в себе. Я бы побоялся такое слово употреблять.
Поддерживаю вопрос обеими руками.

Есть где-нибудь список с сайтами, на которых проводятся соревнования по машинному обучению? Или некий ресурс, который аггрегирует список всех текущих и будущих соревнований?

Я бы в этом соревновании поучаствовал бы, если бы, знал, что оно существует.
В этом соревновании у меня SVM запросто обходила RF/NN.

www.kaggle.com/c/crowdflower-search-relevance

Хотя те, кто выиграл это соревнование сказали, что у них лучшее предсказание было получено используя xgboost. Но они данные по-другому обрабатывали. С их решением ещё надо будет разбираться.

Информация

В рейтинге
1 013-й
Откуда
San Francisco, California, США
Зарегистрирован
Активность