Pull to refresh
14
0
Дмитрий Бабаев @ratatosk

‎Data Science and ML Practitioner

Send message

Спасибо за мега полезную статью. Уточняющий вопрос про A/B тесты: мы научились считать n для желаемых величин альфа и бета, но оно зависит от тетта контроля, которое мы не знаем. Мы берем какую то его оценку по предыдущим тестам?

Только это пока не бустинг, про бустинг наверняка будет отдельная статья.

Наверное "деньги очень нужны")

Картинки хороши, особенно начальная

Особенно понравился кейс Билайна: делаем бла бла бла а также бла бла бла и это не полный перечень! Результат: к 2018 г. прогнозируемые доходы от big data составят более 20% выручки компании. Наверное благодаря Spark и scikit-learn). Думаю из-за таких "кейсов" у многих и возникает ощущение что биг дата — это какой-то развод.

А не могли бы вы раскрыть подробнее какой именно опыт в бизнесе телеком операторов есть у специалистов компании Huawei? В статье достаточно общие и очевидные вещи описаны, которые в телекомах делались еще до появления модного термина «Биг Дата».
Кстати итоговая архитектура стала чем-то похожа на так называемые Lambda и Kappa архитектуры; radar.oreilly.com/2014/07/questioning-the-lambda-architecture.html
Спасибо за интересную статью. Думаю, что можно взять вместо букв n-граммы и использовать Locality Sensitive Hashing. Если его использовать то можно избежать поиска ближайших точек с помощью r-дерева, которое будет плохо работать с n-граммами из-за большой размерности. Про поиск похожих текстов с помощью Locality Sensitive Hashing хорошо рассказывает Ульман в курсе Mining Massive Datasets (вторая неделя) class.coursera.org/mmds-001. Еще есть мысль попробовать понизить размерность n-грамных представлений с помощью Principal Component Analysis.
1da199f3e2bd43f6d60a09c875dcf24c
Классический выриант решения этой проблемы в Скале — Option:
www.scala-lang.org/api/current/index.html#scala.Option
www.codecommit.com/blog/scala/the-option-pattern

В джаве можно применть тот же подход
2

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Registered
Activity

Specialization

Data Scientist, ML Engineer