Pull to refresh

Comments 35

Хотелось бы, чтобы каждый новый автор, решающий открыть миру глаза на Big Data, начинал со слов: " я заработал своей компании на Big Data XX млн, что подтверждено такой-то и такой аудированной отчетностью". Это даст импульс внимания со стороны читающей публики, а ряду читателей поможет сэкономить время
Спасибо за комментарий по существу:)
Моей целью не является «открыть миру глаза», лишь систематизировать свои знания и поделиться ими с теми кому это интересно.
UFO landed and left these words here
Я действительно занимаюсь преподавательской деятельностью и горжусь этим.
Но преподавательская деятельность не является моим основным занятием — это хобби и оно не приносит существенного дохода для меня.
Основная деятельность — разработка и проектирование систем связанных с большими данными, более конкретно о тем чем занимаюсь я и компания в которой я работаю можно прочитать в других статьях этого блога и просто поискав в интернете.
Меряться миллионами — это мне кажется не для хабра, а для forbes или ведомостей. Оценить уровень зарплат в сфере работы с данными можно посмотрев вакансии по соответствующим запросам на hh.ru, яндекс.работа и прочих сервисов. Как работадатель могу сказать, что на рынке существует существенный кадровый голод и найти сотрудника с нужными компетенциями очень-очень сложно и поиск сотрудника на позицию длится как правило месяцами.
Нет.
Считаю бессмысленным дальнейшее обсуждение моих доходов в данной статье. Мне хватает на хлеб, а также масло и возможность съездить в отпуск.
Речь не про ваши доходы конечно, они меня не касаются. Просто хочется понять, вы преподаете, потому что… что?
Потому что мне нравится преподавать. Я получаю удовольствие от того что делюсь знаниями с людьми. Мне нравится заводить новые знакомства, которые часто переходят в совместные проекты. Нравится наблюдать за формирующимся сообществом единомышленников.
До того как преподавать на курсах NPL я преподавал в кружках олимпиадного программирования — тоже не за деньги(естественно зарплата была, но весьма символическая).
У индейцев племени Пираха, живущих в тропических лесах Бразилии, в отдалении от цивилизации в языке имеются только три числительных, одно переводится примерно как «один-два», другое — «несколько» и третье — «гораздо больше». Последнее удивительным образом напоминает Big Data.
Как и большинство таких публикаций — ни о чём. Писать статью «введение в MR» по содержанию меньше чем tutorial к hadoop'у — просто смешно.

Если хочется несколько погрузиться в тему, то сейчас на coursera есть интересный курс от Стэнфорда.
Туториал по hadoop'у в следующей части. Считаю что правильно разбивать материал на порции на осознание которых не уйдет больше 20 минут. Если вы уже знали материал то для вас естественно статья «ниочем» :)
Ссылка хорошая, так же могу порекомендовать книжку на основании которой построен курс: www.mmds.org.
Да, книжка есть в описании курса.

А с подходом
Считаю что правильно разбивать материал на порции на осознание которых не уйдет больше 20 минут.
крайне не согласен. Проблемы:
— сильно замусоривает ленту;
— автор обычно исчезает в середине цикла.

Результат получается удручающий: в энный раз описаны тривиальные вещи, а до сложных так и не дошло. Возможно, у вас этого не случится, но пока статистика по многим циклам публикаций такова.
Злые вы все какие-то.
А мне понравилась статья. Даже несмотря на то, что почти все это я знал.
Изложено просто и понятно, читать приятно, без лишней воды. Есть ощущение, что автор действительно знает тему и потому, есть надежда, что цикл дойдет до сложных статей. Надежда на это подкупает.
Что касается того, что «обычно до сложных тем не доходит в циклах» — так может потому и не доходит, что все набрасываются за то, что цикл начинается с простого?

В общем, к автору обращаюсь с просьбой продолжать писать и завершить цикл, а не прервать его на середине.
Спасибо!
Постараюсь не обмануть ожиданий :)
Я также поддержу, главное продолжайте читать очень легко и понятно, хочется узнать чем все закончилось :)
Big Data от А до Я. Часть 2: Hadoop habr.com/ru/company/dca/blog/268277
Big data от А до Я. Часть 3: Приемы и стратегии разработки MapReduce-приложений habr.com/ru/post/270453
Big Data от А до Я. Часть 4: Hbase habr.com/ru/company/dca/blog/280700
Big Data от A до Я. Часть 5.1: Hive — SQL-движок над MapReduce habr.com/ru/post/283212
Big Data от A до Я. Часть 5.2: Продвинутые возможности hive habr.com/ru/company/dca/blog/305838
А, вы про часть «6». Да, на пяти частях я остановился, но кажется на тот момент я покрыл более менее основные компоненты инфраструктуры hadoop.
Сейчас уже конечно не все из написанного актуально.
Мне тоже понравилось. Просто и ясно написано. Автор, давай ишчо!
До потоковой обработки тоже надеюсь дойдем.
Про то как мы занимаемся потоковой обработкой можно почитать в одной из наших предыдущих статей:
habrahabr.ru/company/dca/blog/260845
Спасибо, интересно. Еще было бы интересно, если бы осветили вопрос тюнинга нод в Hadoop-кластерах. Какие параметры есть, на что влияют и как крутить и при каких условиях и для каких задач. С точки зрения сисадминов и devops. Если, конечно же, знаете.
В какой-то мере точно освятим тему тюнинга)
Хорошая статья. Написано простым и понятным языком.

Продолжайте писать. :)
Мне понравился стиль изложения. Объем тоже. Не слушайте критиков — пишите дальше!
Для новичка в области BigData — то, что нужно, чтобы постичь общую суть и ознакомиться с принципами.
Спасибо, интересная тема, читабельный текст, не много букв )) Жду статью про Хадуп в таком же стиле.
А можно попродробнее насчет:
shuffle прозрачно для нас превращает это в пары (слово, [1,1,1,1,1,1])
Каков псевдокод этого метода?
псевдокода нету, поскольку это делает MapReduce framework. По сути — происходит распределенная сортировка по ключу, а дальше объединение всех значений соответствующих одому ключу в список значений.
А почему бы не посчитать количество сразу на это этапе?
этот этап не программируем. все равно чтобы посчитать количество вам понадобятся все записи. На самом деле, в ситуациях подобных данной результаты можно предагрегировать еще до передачи их на reducer — возспользоваться методом Combine, про который я расскажу в 3-ей части этого цикла статей.
«Hadoop-кластер Yahoo имеет более 42000 машин» — неверно. На момент публикации 42000 — это общее кол-во машин под Hadoop у Yahoo. На середину 2015 года максимальный кластер у них — 4500 машин при общем кол-ве около 100К.
Only those users with full accounts are able to leave comments. Log in, please.