asash 21 сен 2015 в 18:47

Big Data от А до Я. Часть 1: Принципы работы с большими данными, парадигма MapReduce

6 мин

510K

Big Data*

Туториал

+44

Комментарии 35

zmey2 21 сен 2015 в 19:25

Хотелось бы, чтобы каждый новый автор, решающий открыть миру глаза на Big Data, начинал со слов: " я заработал своей компании на Big Data XX млн, что подтверждено такой-то и такой аудированной отчетностью". Это даст импульс внимания со стороны читающей публики, а ряду читателей поможет сэкономить время

+12

asash 21 сен 2015 в 19:32

Спасибо за комментарий по существу:)
Моей целью не является «открыть миру глаза», лишь систематизировать свои знания и поделиться ими с теми кому это интересно.

+12

НЛО прилетело и опубликовало эту надпись здесь

asash 21 сен 2015 в 21:03

Я действительно занимаюсь преподавательской деятельностью и горжусь этим.
Но преподавательская деятельность не является моим основным занятием — это хобби и оно не приносит существенного дохода для меня.
Основная деятельность — разработка и проектирование систем связанных с большими данными, более конкретно о тем чем занимаюсь я и компания в которой я работаю можно прочитать в других статьях этого блога и просто поискав в интернете.
Меряться миллионами — это мне кажется не для хабра, а для forbes или ведомостей. Оценить уровень зарплат в сфере работы с данными можно посмотрев вакансии по соответствующим запросам на hh.ru, яндекс.работа и прочих сервисов. Как работадатель могу сказать, что на рынке существует существенный кадровый голод и найти сотрудника с нужными компетенциями очень-очень сложно и поиск сотрудника на позицию длится как правило месяцами.

zmey2 21 сен 2015 в 22:03

То есть в вашем случае XX =0

asash 21 сен 2015 в 22:15

Нет.
Считаю бессмысленным дальнейшее обсуждение моих доходов в данной статье. Мне хватает на хлеб, а также масло и возможность съездить в отпуск.

zmey2 21 сен 2015 в 22:19

Речь не про ваши доходы конечно, они меня не касаются. Просто хочется понять, вы преподаете, потому что… что?

-11

asash 21 сен 2015 в 22:24

Потому что мне нравится преподавать. Я получаю удовольствие от того что делюсь знаниями с людьми. Мне нравится заводить новые знакомства, которые часто переходят в совместные проекты. Нравится наблюдать за формирующимся сообществом единомышленников.
До того как преподавать на курсах NPL я преподавал в кружках олимпиадного программирования — тоже не за деньги(естественно зарплата была, но весьма символическая).

+14

zmey2 21 сен 2015 в 22:28

Спасибо вам. Спасибо!

-4

stack_trace 11 мар 2017 в 19:30

Del

Извините за невнимательность, ответ не вам

Informatik 21 сен 2015 в 20:06

У индейцев племени Пираха, живущих в тропических лесах Бразилии, в отдалении от цивилизации в языке имеются только три числительных, одно переводится примерно как «один-два», другое — «несколько» и третье — «гораздо больше». Последнее удивительным образом напоминает Big Data.

gr33tx 16 фев 2017 в 20:40

дохрена

grossws 21 сен 2015 в 20:45

Как и большинство таких публикаций — ни о чём. Писать статью «введение в MR» по содержанию меньше чем tutorial к hadoop'у — просто смешно.

Если хочется несколько погрузиться в тему, то сейчас на coursera есть интересный курс от Стэнфорда.

asash 21 сен 2015 в 20:50

Туториал по hadoop'у в следующей части. Считаю что правильно разбивать материал на порции на осознание которых не уйдет больше 20 минут. Если вы уже знали материал то для вас естественно статья «ниочем» :)
Ссылка хорошая, так же могу порекомендовать книжку на основании которой построен курс: www.mmds.org.

grossws 21 сен 2015 в 21:32

Да, книжка есть в описании курса.

А с подходом

Считаю что правильно разбивать материал на порции на осознание которых не уйдет больше 20 минут.

крайне не согласен. Проблемы:
— сильно замусоривает ленту;
— автор обычно исчезает в середине цикла.

Результат получается удручающий: в энный раз описаны тривиальные вещи, а до сложных так и не дошло. Возможно, у вас этого не случится, но пока статистика по многим циклам публикаций такова.

antaries 21 сен 2015 в 22:43

Злые вы все какие-то.
А мне понравилась статья. Даже несмотря на то, что почти все это я знал.
Изложено просто и понятно, читать приятно, без лишней воды. Есть ощущение, что автор действительно знает тему и потому, есть надежда, что цикл дойдет до сложных статей. Надежда на это подкупает.
Что касается того, что «обычно до сложных тем не доходит в циклах» — так может потому и не доходит, что все набрасываются за то, что цикл начинается с простого?

В общем, к автору обращаюсь с просьбой продолжать писать и завершить цикл, а не прервать его на середине.

+17

asash 21 сен 2015 в 22:46

Спасибо!
Постараюсь не обмануть ожиданий :)

no_smoking 22 сен 2015 в 08:41

Я также поддержу, главное продолжайте читать очень легко и понятно, хочется узнать чем все закончилось :)

barbaris76 9 апр 2021 в 16:59

Увы, обманули… :(
Часть 6 и т.д так и не появилась.

asash 9 апр 2021 в 18:05

Big Data от А до Я. Часть 2: Hadoop habr.com/ru/company/dca/blog/268277
Big data от А до Я. Часть 3: Приемы и стратегии разработки MapReduce-приложений habr.com/ru/post/270453
Big Data от А до Я. Часть 4: Hbase habr.com/ru/company/dca/blog/280700
Big Data от A до Я. Часть 5.1: Hive — SQL-движок над MapReduce habr.com/ru/post/283212
Big Data от A до Я. Часть 5.2: Продвинутые возможности hive habr.com/ru/company/dca/blog/305838

asash 9 апр 2021 в 18:09

А, вы про часть «6». Да, на пяти частях я остановился, но кажется на тот момент я покрыл более менее основные компоненты инфраструктуры hadoop.
Сейчас уже конечно не все из написанного актуально.

Weageoo 22 сен 2015 в 12:20

Мне тоже понравилось. Просто и ясно написано. Автор, давай ишчо!

RPG18 22 сен 2015 в 00:45

Как-то странно читать про MapReduce, без ссылок на MapReduce: Simplied Data Processing on Large Clusters.

Интересно было бы почитать про потоковые алгоритмы обработки данных.

asash 22 сен 2015 в 00:51

До потоковой обработки тоже надеюсь дойдем.
Про то как мы занимаемся потоковой обработкой можно почитать в одной из наших предыдущих статей:
habrahabr.ru/company/dca/blog/260845

eMptywee 22 сен 2015 в 02:01

Спасибо, интересно. Еще было бы интересно, если бы осветили вопрос тюнинга нод в Hadoop-кластерах. Какие параметры есть, на что влияют и как крутить и при каких условиях и для каких задач. С точки зрения сисадминов и devops. Если, конечно же, знаете.

asash 22 сен 2015 в 07:03

В какой-то мере точно освятим тему тюнинга)

Mindstorms 22 сен 2015 в 03:21

Хорошая статья. Написано простым и понятным языком.

Продолжайте писать. :)

zamonier 22 сен 2015 в 11:15

Мне понравился стиль изложения. Объем тоже. Не слушайте критиков — пишите дальше!

Artiomtb 22 сен 2015 в 12:05

Для новичка в области BigData — то, что нужно, чтобы постичь общую суть и ознакомиться с принципами.

but 22 сен 2015 в 12:33

Спасибо, интересная тема, читабельный текст, не много букв )) Жду статью про Хадуп в таком же стиле.

donRumatta 6 окт 2015 в 20:38

А можно попродробнее насчет:

shuffle прозрачно для нас превращает это в пары (слово, [1,1,1,1,1,1])

Каков псевдокод этого метода?

asash 6 окт 2015 в 21:50

псевдокода нету, поскольку это делает MapReduce framework. По сути — происходит распределенная сортировка по ключу, а дальше объединение всех значений соответствующих одому ключу в список значений.

donRumatta 6 окт 2015 в 21:53

А почему бы не посчитать количество сразу на это этапе?

asash 6 окт 2015 в 22:11

этот этап не программируем. все равно чтобы посчитать количество вам понадобятся все записи. На самом деле, в ситуациях подобных данной результаты можно предагрегировать еще до передачи их на reducer — возспользоваться методом Combine, про который я расскажу в 3-ей части этого цикла статей.

dyadyaSerezha 1 апр 2016 в 19:26

«Hadoop-кластер Yahoo имеет более 42000 машин» — неверно. На момент публикации 42000 — это общее кол-во машин под Hadoop у Yahoo. На середину 2015 года максимальный кластер у них — 4500 машин при общем кол-ве около 100К.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

Big Data от А до Я. Часть 1: Принципы работы с большими данными, парадигма MapReduce

Комментарии 35

Публикации

Истории