Спасибо за мега полезную статью. Уточняющий вопрос про A/B тесты: мы научились считать n для желаемых величин альфа и бета, но оно зависит от тетта контроля, которое мы не знаем. Мы берем какую то его оценку по предыдущим тестам?
Особенно понравился кейс Билайна: делаем бла бла бла а также бла бла бла и это не полный перечень! Результат: к 2018 г. прогнозируемые доходы от big data составят более 20% выручки компании. Наверное благодаря Spark и scikit-learn). Думаю из-за таких "кейсов" у многих и возникает ощущение что биг дата — это какой-то развод.
А не могли бы вы раскрыть подробнее какой именно опыт в бизнесе телеком операторов есть у специалистов компании Huawei? В статье достаточно общие и очевидные вещи описаны, которые в телекомах делались еще до появления модного термина «Биг Дата».
Спасибо за интересную статью. Думаю, что можно взять вместо букв n-граммы и использовать Locality Sensitive Hashing. Если его использовать то можно избежать поиска ближайших точек с помощью r-дерева, которое будет плохо работать с n-граммами из-за большой размерности. Про поиск похожих текстов с помощью Locality Sensitive Hashing хорошо рассказывает Ульман в курсе Mining Massive Datasets (вторая неделя) class.coursera.org/mmds-001. Еще есть мысль попробовать понизить размерность n-грамных представлений с помощью Principal Component Analysis.
Спасибо за мега полезную статью. Уточняющий вопрос про A/B тесты: мы научились считать n для желаемых величин альфа и бета, но оно зависит от тетта контроля, которое мы не знаем. Мы берем какую то его оценку по предыдущим тестам?
Только это пока не бустинг, про бустинг наверняка будет отдельная статья.
Наверное "деньги очень нужны")
Картинки хороши, особенно начальная
Особенно понравился кейс Билайна: делаем бла бла бла а также бла бла бла и это не полный перечень! Результат: к 2018 г. прогнозируемые доходы от big data составят более 20% выручки компании. Наверное благодаря Spark и scikit-learn). Думаю из-за таких "кейсов" у многих и возникает ощущение что биг дата — это какой-то развод.
Вот очень хорошая вводная статья про виды распределений: Common Probability Distributions: The Data Scientist’s Crib Sheet.
www.scala-lang.org/api/current/index.html#scala.Option
www.codecommit.com/blog/scala/the-option-pattern
В джаве можно применть тот же подход