ph_piter 27 ноя 2018 в 12:02

Книга «Теоретический минимум по Big Data. Всё что нужно знать о больших данных»

5 мин

14K

Блог компании Издательский дом «Питер»Big Data*Профессиональная литература*

Комментарии 8

Romario21 27 ноя 2018 в 12:58

Я думал, что BigData — начинается с нескольких десятков гигабайт данных, возможно из разных источников, возможно детерминированных, которые содержат большое кол-во маркеров, по которым можно строить аналитику и том числе прогнозы.
Просто чем BigData отличается от аналитики которая существует уже не один десяток лет?

-1

PastorGL 27 ноя 2018 в 14:17

Ничем по сути, всё дело в технических деталях.

Просто в бигдате нам приходится извращаться с хранением и процессингом, потому что если считать алгоритмы «в лоб», никаких вычислительных мощностей (и денег) на обсчёт таких объёмов не хватит. Из исходника на питоше, который отдаёт дэйта-сатанист (гоняет он его локально в один поток на сэмпле в пару гигов), нам приходится городить хтонический ужас на спарке, который работает в облаке на сотнях ядер и пережёвывает терабайты.

ph_piter 27 ноя 2018 в 14:27

Мы активно пытаемся продвигать в массы Spark, обратите внимание пожалуйста: www.piter.com/collection/all/product/effektivnyy-spark-masshtabirovanie-i-optimizatsiya

sshikov 27 ноя 2018 в 19:51

Эх. Spark 2.0.1, при том что текущая версия 2.4. Все как обычно…

Это я ворчу, на самом деле это вполне приличная книжка, хотя всех вопросов она все равно не охватывает (но и остальные тут не лучше).

sshikov 27 ноя 2018 в 19:53

BigData начинается примерно тогда, когда вы вылезаете за пределы доступной памяти. Несколько десятков гигабайт на сегодня таким объемом не является однозначно, потому что примерно терабайт — это объем памяти, который можно поставить на одну машину (но я не говорил, что это дешево).

nehaev 27 ноя 2018 в 20:28

Судя по оглавлению, эта книга больше про Machine Learning, чем про Big Data.

Главная специфика Big Data — это то, как эффективно обрабатывать большие объемы данных, как их правильно хранить, как грамотно строить распределенные архитектуры. В книге похоже совсем про другое.

Oskar87 28 ноя 2018 в 11:39

Прав на 110%, книга сравни материалу на тему «математические беседы за чашкой чая».

sshikov 30 ноя 2018 в 19:58

Судя по приведенному образцу текста — тоже.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий