Комментарии 8
Я думал, что BigData — начинается с нескольких десятков гигабайт данных, возможно из разных источников, возможно детерминированных, которые содержат большое кол-во маркеров, по которым можно строить аналитику и том числе прогнозы.
Просто чем BigData отличается от аналитики которая существует уже не один десяток лет?
Просто чем BigData отличается от аналитики которая существует уже не один десяток лет?
-1
Ничем по сути, всё дело в технических деталях.
Просто в бигдате нам приходится извращаться с хранением и процессингом, потому что если считать алгоритмы «в лоб», никаких вычислительных мощностей (и денег) на обсчёт таких объёмов не хватит. Из исходника на питоше, который отдаёт дэйта-сатанист (гоняет он его локально в один поток на сэмпле в пару гигов), нам приходится городить хтонический ужас на спарке, который работает в облаке на сотнях ядер и пережёвывает терабайты.
Просто в бигдате нам приходится извращаться с хранением и процессингом, потому что если считать алгоритмы «в лоб», никаких вычислительных мощностей (и денег) на обсчёт таких объёмов не хватит. Из исходника на питоше, который отдаёт дэйта-сатанист (гоняет он его локально в один поток на сэмпле в пару гигов), нам приходится городить хтонический ужас на спарке, который работает в облаке на сотнях ядер и пережёвывает терабайты.
0
Мы активно пытаемся продвигать в массы Spark, обратите внимание пожалуйста: www.piter.com/collection/all/product/effektivnyy-spark-masshtabirovanie-i-optimizatsiya
0
BigData начинается примерно тогда, когда вы вылезаете за пределы доступной памяти. Несколько десятков гигабайт на сегодня таким объемом не является однозначно, потому что примерно терабайт — это объем памяти, который можно поставить на одну машину (но я не говорил, что это дешево).
+1
Судя по оглавлению, эта книга больше про Machine Learning, чем про Big Data.
Главная специфика Big Data — это то, как эффективно обрабатывать большие объемы данных, как их правильно хранить, как грамотно строить распределенные архитектуры. В книге похоже совсем про другое.
+2
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Книга «Теоретический минимум по Big Data. Всё что нужно знать о больших данных»