Pull to refresh
4
Karma
0
Rating
Дмитрий Бабаев @ratatosk

‎Data Science and ML Practitioner

Коронавирус: опасная иллюзия смертности

В чем смысл сравнивать количество умерших от гриппа в 2016 году и смертей от COVID? Явно же заболевших гриппом было сильно больше.

Разработчики — никакая не элита, а голые короли индустрии

Так отрасль на подъеме, людей не хватвет, поэтому начинающему легко попасть на относительно неплохую стартовую зарплату. Правильно ли я понимаю, что вы хотите, чтобы отрасль была на спаде и программисты дрались друг с другом за рабочие места?

Почему топовые физики не любят многомировую интерпретацию

В многомировой интерпретации множество миров где кот мертв естественным образом получаются вследствие того, что при очередном делении на два мира тот мир, где кот остался жив может еще раз поделиться на два мира жив/мертв. Получается, что с течением времени растет количество миров, где кот мертв, а мир, где кот жив остается один.

DNS Over TLS & Over HTTPS теперь и на iOS/Android и для всех сетей сразу [Спасибо Cloudflare]

А в чем смысл шифровать DNS, кроме как, защиты от подмены ответа? Провайдер же все равно знает IP соединения и, может по нему восстановить основную часть домена для более-менее крупных сайтов?

Машинное обучение алгоритмам

Рекуррентные нейросети полны по Тьюрингу, вот, например, подробности: https://stats.stackexchange.com/questions/220907/meaning-and-proof-of-rnn-can-approximate-any-algorithm.

«Короли математики»: аналитика Big Data в банке. Проект ГАУСС в ВТБ

А причем здесь математика? Или она упомянута только из-за слова "Гаусс" в названии?

Библиотеки для глубокого обучения: Keras

А как мы в последнем примере получили 2-х мерные вектора если выход последнего слоя сети — 128?

Байесовские многорукие бандиты против A/B тестов

Кстати power.prop.test из R для одностороннего теста почему то стабильно предлагает в 2 раза большее количество экспериментов на группу чем метод, описанный здесь. Например, для примера из статьи:


power.prop.test(
    p1 = 0.001,
    p2 = 0.0011,
    sig.level = 0.01,
    power = 0.99,
    alternative = "one.sided")

     Two-sample comparison of proportions power calculation 

              n = 4541213
             p1 = 0.001
             p2 = 0.0011
      sig.level = 0.01
          power = 0.99
    alternative = one.sided

NOTE: n is number in *each* group

Байесовские многорукие бандиты против A/B тестов

Спасибо за мега полезную статью. Уточняющий вопрос про A/B тесты: мы научились считать n для желаемых величин альфа и бета, но оно зависит от тетта контроля, которое мы не знаем. Мы берем какую то его оценку по предыдущим тестам?

Открытый курс машинного обучения. Тема 5. Композиции: бэггинг, случайный лес

Только это пока не бустинг, про бустинг наверняка будет отдельная статья.

Data Science Weekend 3-4 марта

Наверное "деньги очень нужны")

Еще 12 big data кейсов

Особенно понравился кейс Билайна: делаем бла бла бла а также бла бла бла и это не полный перечень! Результат: к 2018 г. прогнозируемые доходы от big data составят более 20% выручки компании. Наверное благодаря Spark и scikit-learn). Думаю из-за таких "кейсов" у многих и возникает ощущение что биг дата — это какой-то развод.

Как большим операторам зарабатывать большие деньги на больших данных?

А не могли бы вы раскрыть подробнее какой именно опыт в бизнесе телеком операторов есть у специалистов компании Huawei? В статье достаточно общие и очевидные вещи описаны, которые в телекомах делались еще до появления модного термина «Биг Дата».

Потоковая обработка данных при помощи Akka

Кстати итоговая архитектура стала чем-то похожа на так называемые Lambda и Kappa архитектуры; radar.oreilly.com/2014/07/questioning-the-lambda-architecture.html

Поиск почти-дубликатов и геометрия

Спасибо за интересную статью. Думаю, что можно взять вместо букв n-граммы и использовать Locality Sensitive Hashing. Если его использовать то можно избежать поиска ближайших точек с помощью r-дерева, которое будет плохо работать с n-граммами из-за большой размерности. Про поиск похожих текстов с помощью Locality Sensitive Hashing хорошо рассказывает Ульман в курсе Mining Massive Datasets (вторая неделя) class.coursera.org/mmds-001. Еще есть мысль попробовать понизить размерность n-грамных представлений с помощью Principal Component Analysis.
1

Information

Rating
6,014-th
Location
Москва, Москва и Московская обл., Россия
Registered
Activity