Как стать автором
Обновить

Комментарии 8

Я думал, что BigData — начинается с нескольких десятков гигабайт данных, возможно из разных источников, возможно детерминированных, которые содержат большое кол-во маркеров, по которым можно строить аналитику и том числе прогнозы.
Просто чем BigData отличается от аналитики которая существует уже не один десяток лет?
Ничем по сути, всё дело в технических деталях.

Просто в бигдате нам приходится извращаться с хранением и процессингом, потому что если считать алгоритмы «в лоб», никаких вычислительных мощностей (и денег) на обсчёт таких объёмов не хватит. Из исходника на питоше, который отдаёт дэйта-сатанист (гоняет он его локально в один поток на сэмпле в пару гигов), нам приходится городить хтонический ужас на спарке, который работает в облаке на сотнях ядер и пережёвывает терабайты.
Эх. Spark 2.0.1, при том что текущая версия 2.4. Все как обычно…

Это я ворчу, на самом деле это вполне приличная книжка, хотя всех вопросов она все равно не охватывает (но и остальные тут не лучше).
BigData начинается примерно тогда, когда вы вылезаете за пределы доступной памяти. Несколько десятков гигабайт на сегодня таким объемом не является однозначно, потому что примерно терабайт — это объем памяти, который можно поставить на одну машину (но я не говорил, что это дешево).

Судя по оглавлению, эта книга больше про Machine Learning, чем про Big Data.


Главная специфика Big Data — это то, как эффективно обрабатывать большие объемы данных, как их правильно хранить, как грамотно строить распределенные архитектуры. В книге похоже совсем про другое.

Прав на 110%, книга сравни материалу на тему «математические беседы за чашкой чая».
Судя по приведенному образцу текста — тоже.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий