Pull to refresh

Hadoop: решение реальных задач

Reading time2 min
Views6K
Привет вам, дорогие хабралюди (и просто люди, ибо различий я делать не стремлюсь). Возникла у меня тут мысль написать большую статью про Hadoop. Причем не просто статью, а статью, которая будет описывать реальную (ну или практически реальную) задачу, которая вполне может оказаться нужной и интересной уважаемым хабрапользователям — если быть точнее, статистический анализ очень большого объема данных, например, английской Википедии (дамп весит 24 Гб или около того).

Тут сразу несколько проблем. Во-первых, дамп Википедии — это XML. Работать с XML на Hadoop — это то еще удовольствие, однако если разобраться, то все не так плохо. Во-вторых, это еще не большой, но уже существенный объем данных — надо начинать думать о размере сплита, количестве map-тасков, и т.д. Третья проблема — скорее всего, я буду описывать разработку системы для «облачного» кластера, который где-то находится, но ни настраивать, ни администрировать ничего не надо — к сожалению, не у всех есть доступ к таким системам, поэтому неплохо было бы написать для начала как можно сконфигурировать простенький, но настоящий кластер.

Есть такой интерес у пользователей? Тема интересная, и я искренне верю, что в задачах, где требуется обработка очень больших объемов информации, грид-вычисления это вообще чуть ли не единственный разумный выход сразу по нескольким причинам. В свой блог я периодически кидаю всяческие гиковские наблюдения и мысли на тему Hadoop, но писать в личный блог и писать в Хабр — это, согласитесь, две большие разницы.

Ну так вот. Если интересно — отпишитесь, и я постепенно начну.

Update: в качестве задачи предлагается вычисление tf-idf — по-моему вполне нормальный пример (к тому же имеющий массу практических применений).

Update2: а статья уже готова :-) завтра отчитаю ее еще разок и выложу.

Update3: sigizmund.habrahabr.ru/blog/74792
Tags:
Hubs:
+16
Comments10

Articles