Как стать автором
Обновить
  • по релевантности
  • по времени
  • по рейтингу

Стоит ли платить за Apache Hadoop?

JavaData MiningBig Data


В 2010 году Apache Hadoop, MapReduce и ассоциированные с ними технологии привели к распространению нового явления в сфере информационных технологий, названного «большими данными» или «Big Data». Понимание того, что из себя представляет платформа Apache Hadoop, зачем она нужна и для чего её можно использовать потихоньку проникает в умы специалистов по всему миру. Зарожденный, как идея одного человека, и быстро выросший до промышленных масштабов, Apache Hadoop стал одной из самых широко обсуждаемых платформ для распределенных вычислений, а также платформой для хранения неструктурированной или слабо структурированной информации. В этой статье я хотел бы подробнее остановиться на самой платформе Apache Hadoop и рассмотреть коммерческие реализации, предоставляемые сторонними компаниями, и их отличия от свободно распространяемой версии Apache Hadoop.
Читать дальше →
Всего голосов 26: ↑25 и ↓1+24
Просмотры30K
Комментарии 14

Hadoop, часть 1: развертывание кластера

Блог компании SelectelBig DataHadoop
hadoop

Непрерывный рост данных и увеличение скорости их генерации порождают проблему их обработки и хранения. Неудивительно, что тема «больших данных» (Big Data) является одной из самых обсуждаемых в современном ИТ-сообществе.

Материалов по теории «больших данных» в специализированных журналах и на сайтах сегодня публикуется довольно много. Но из теоретических публикаций далеко не всегда ясно, как можно использовать соответствующие технологии для решения конкретных практических задач.

Одним из самых известных и обсуждаемых проектов в области распределенных вычислений является Hadoop — разрабатываемый фондом Apache Software Foundation свободно распространяемый набор из утилит, библиотек и фреймворк для разработки и выполнения программ распределенных вычислений.

Мы уже давно используем Hadoop для решения собственных практических задач. Результаты нашей работы в этой области стоят того, чтобы рассказать о них широкой публике. Эта статья — первая в цикле о Hadoop. Сегодня мы расскажем об истории и структуре проекта Hadoop, а также покажем на примере дистрибутива Hadoop Cloudera, как осуществляется развертывание и настройка кластера.

Осторожно, под катом много трафика.
Читать дальше →
Всего голосов 42: ↑40 и ↓2+38
Просмотры49K
Комментарии 16

Как проиндексировать логи бизнес-приложений в Hadoop (SolrCloud)

Блог компании CUSTISOpen sourceBig DataHadoop
Recovery mode

Введение


У одного из наших клиентов возникла задача вынести логи из большинства корпоративных приложений и их баз данных «куда-нибудь» — уж больно с ними много возни: растут как на дрожжах, чисти их периодически, а к некоторым еще и доступ должен быть обеспечен в течение многих лет, да еще и анализ хочется проводить системным образом. Конечно же, вынести логи – это не первичная цель, и по совокупности требований мы выбрали Hadoop, версию от Cloudera (CDH 5).

Требования указывали, что решение, помимо прочего, должно предоставлять возможность поиска и просмотра списка событий (из логов) по заданным критериям, причем желательно быстрого. Причем некоторые приложения также должны быть переделаны, чтобы формы просмотра логов стали использовать Hadoop вместо своих баз данных.

Как одно из решений — использовать поисковый модуль SolrCloud, который входит в комплект Hadoop от Cloudera. В Cloudera «из коробки» входят тулзы для выгрузки данных из баз данных приложений и их индексации пачкой (не построчно). Однако такой способ оказался хоть и рабочим, но более трудоемким и непредсказуемым в настройке, чем, скажем, если бы мы использовали Impala для выборки данных. Поэтому я решил поделиться как мы это делали, в надежде сэкономить время тем, кто столкнется с похожей задачей.

Эта статья описывает детали настройки, а также встреченные в процессе работы особенности.
Читать дальше →
Всего голосов 9: ↑6 и ↓3+3
Просмотры6.2K
Комментарии 20

Горячие анонсы облака Microsoft Azure: больше, быстрее и более открыто

Блог компании MicrosoftMicrosoft Azure
20 октября Сатья Наделла, CEO Microsoft и Скотт Гатри, CVP Microsoft в рамках мероприятия CloudDay рассказали о стратегии облачных вычислений компании и сделали ряд важных анонсов касающихся технологий и партнерства облачной платформы Microsoft Azure (вы можете посмотреть запись этого мероприятия по ссылке).

image image

image image

Среди анонсированных новостей были следующие:

  • Новые виртуальные машины серии G – крупнейшие на рынке публичных облачных сервисов
  • Новое хранилище Premium Storage – высокопроизводительное хранилище с низкими задержками
  • Новый сервис Azure Marketplace для поиска и размещения решений от стартапов, партнеров и корпоративных клиентов
  • Новые классные партнеры в лице CoreOS и Cloudera
  • Запуск нового гибридного решения Microsoft Cloud Platform System – “облако в коробке” для вашего ЦОД

Кроме того, в ходе выступлений были раскрыты некоторые данные о облаке Microsoft.  21 октября прошла онлайн-конференция AzureConf 2014, в рамках которой было сделано несколько интересных анонсов о технологиях Azure.

Обо всех новинках и анонсах более подробно рассказано ниже.
Читать дальше →
Всего голосов 45: ↑33 и ↓12+21
Просмотры12K
Комментарии 32

Data Lake – от теории к практике. Сказ про то, как мы строим ETL на Hadoop

Блог компании TINKOFFSQLBig DataHadoop
В этой статье я хочу рассказать про следующий этап развития DWH в Тинькофф Банке и о переходе от парадигмы классического DWH к парадигме Data Lake.

Свой рассказ я хочу начать с такой вот веселой картинки:



Да, ещё несколько лет назад картинка была актуальной. Но сейчас, с развитием технологий, входящих в эко-систему Hadoop и развитием ETL платформ правомерно утверждать то, что ETL на Hadoop не просто существует но и то, что ETL на Hadoop ждет большое будущее. Далее в статье расскажу про то, как мы строим ETL на Hadoop в Тинькофф Банке.
Читать дальше →
Всего голосов 19: ↑17 и ↓2+15
Просмотры71K
Комментарии 39

DMP часть 1. Микросегментирование аудитории с помощью ключевых слов

Блог компании TargetixВысокая производительностьРазработка веб-сайтовBig Data
Авторы статьи: Данила Перепечин DanilaPerepechin, Дмитрий Чеклов dcheklov.

Здравствуйте.
Data management platform (DMP) — это наша любимая тема во всей истории про онлайн рекламу. RTB is all about the data.
В продолжение цикла рассказов о технологическом стеке Targetix (SSP, DSP), сегодня я опишу один из инструментов, входящих
в DMP — Keyword Builder.


Читать дальше →
Всего голосов 12: ↑10 и ↓2+8
Просмотры15K
Комментарии 20

Big Data — первый опыт ED IB

Блог компании AT ConsultingBig DataHadoop
Всем привет! Сегодня мы хотим рассказать про наше знакомство с Big Data, которое началось в 2012 году, когда рынок ещё не накрыла волна популярности темы больших данных.



К тому времени у нас уже накопилась экспертиза в области построения хранилищ данных. Мы рассматривали различные пути улучшения стандартных архитектур ХД, поскольку заказчик хотел обрабатывать большие объёмы данных за короткое время и при ограниченном бюджете. Мы понимали, что большие объёмы данных для стандартного хранилища прекрасно обрабатываются на MPP-платформах, но де-факто это дорого. Значит, нам нужна недорогая распределенная система. Ей оказался Hadoop. Он нуждается в минимальных начальных вложениях, а первые результаты можно получить очень быстро. В дальнейшей перспективе – горизонтальное, практически линейное масштабирование, открытая платформа и много интересных дополнительных функций: например, NoSQL, быстрый поиск по данным, подобие SQL-языка доступа к данным.
Читать дальше →
Всего голосов 29: ↑19 и ↓10+9
Просмотры18K
Комментарии 18

Kudu – новый движок хранения данных в экосистеме Hadoop

Big DataHadoop
image
Kudu был одной из новинок, представленых компанией Cloudera на конференции “Strata + Hadoop World 2015”. Это новый движок хранения больших данных, созданный чтобы покрыть нишу между двумя уже существующими движками: распределенной файловой системой HDFS и колоночной базой данных Hbase.

Существующие на данный момент движки не лишены недостатков. HDFS, прекрасно справляющаяся с операциями сканирования больших объемов данных, показывает плохие результаты на операциях поиска. C Hbase все с точностью до наоборот. К тому же HDFS обладает дополнительным ограничением, а именно, не позволяет модифицировать уже записанные данные. Новый движок, согласно разработчикам, обладает преимуществами обеих существующих систем:
— операции поиска с быстрым откликом
— возможность модификации
— высокая производительность при сканировании больших объемов данных
Читать дальше →
Всего голосов 9: ↑9 и ↓0+9
Просмотры11K
Комментарии 3

Укрощаем слона или что такое HUE

JavaBig Data
Из песочницы
Пост будет о том, как сделать работу на Хадупе немного комфортнее.



В данной статье я хочу рассмотреть один из компонентов экосистемы Hadoop – HUE. Произносим правильно «Хьюи» или «Эйч Ю И», но не другими, созвучными с широко известным русским словом, вариантами.
Читать дальше →
Всего голосов 8: ↑7 и ↓1+6
Просмотры20K
Комментарии 3

Обзор кейсов интересных внедрений Big Data в компаниях финансового сектора

Big DataУправление проектамиHadoop
Из песочницы

Кейсы практического применения Больших данных
в компаниях финансового сектора


Зачем эта статья?

В данном обзоре рассматриваются случаи внедрения и применения Больших данных в реальной жизни на примере «живых» проектов. По некоторым, особенно интересным, во всех смыслах, кейсам осмелюсь дать свои комментарии.

Диапазон рассмотренных кейсов ограничивается примерами, представленными в открытом доступе на сайте компании Cloudera.

Что такое «Большие данные»


Есть в технических кругах шутка, что «Большие данные» это данные, для обработки которых недостаточно Excel 2010 на мощном ноутбуке. То есть если для решения задачи вам надо оперировать 1 миллионом строк на листе и более или 16 тысяч столбцов и более, то поздравляем, ваша данные относятся к разряду «Больших».

Среди множества более строгих определений приведем, например следующее: «Большие данные» — наборы данных, которые настолько объемны и сложны, что использование традиционных средств обработки невозможно. Термин обычно характеризует данные, над которыми применяются методы предиктивной аналитики или иные методы извлечения ценности из данных и редко соотносится только с объемом данных.
Читать дальше →
Всего голосов 25: ↑21 и ↓4+17
Просмотры16K
Комментарии 5

Распределенное хранилище данных в концепции Data Lake: с чего начать

Блог компании НеофлексBig DataХранилища данныхHadoop
В мире энтерпрайза наступило пресыщение фронтовыми системами, шинами данных и прочими классическими системами, которые внедряли все кому не лень последние 10-15 лет. Но есть один сегмент, который до недавнего времени был в статусе «все хотят, но никто не знает, что это». И это Big Data. Красиво звучит, продвигается топовыми западными компаниями – как не стать лакомым кусочком?



Но пока большинство только смотрит и приценивается, некоторые компании начали активно внедрять решения на базе этого технологического стека в свой IT ландшафт. Важную роль в этом сыграло появление коммерческих дистрибутивов Apache Hadoop, разработчики которых обеспечивают своим клиентам техническую поддержку. Ощутив необходимость в подобном решении, один из наших клиентов принял решение об организации распределенного хранилища данных в концепции Data Lake на базе Apache Hadoop.
Читать дальше →
Всего голосов 11: ↑10 и ↓1+9
Просмотры6.9K
Комментарии 2

Распределенное хранилище данных в концепции Data Lake: установка CDH

Блог компании НеофлексBig DataХранилища данныхHadoop

Продолжаем делиться опытом по организации хранилища данных, о котором начали рассказывать в предыдущем посте. На этот раз хотим поговорить о том, как мы решали задачи по установке CDH.



Читать дальше →
Всего голосов 8: ↑7 и ↓1+6
Просмотры4.2K
Комментарии 11

Что особенного в Cloudera и как ее готовить

Блог компании AtosBig DataХранение данныхХранилища данныхHadoop
Рынок распределенных вычислений и больших данных, если верить статистике, растет на 18-19% в год. Значит, вопрос выбора софта для этих целей остается актуальным. В этом посте мы начнем с того, зачем нужны распределенные вычисления, подробней остановимся на выборе ПО, расскажем о применении Hadoop с помощью Cloudera, а напоследок поговорим о выборе железа и о том, как оно разными способами влияет на производительность.

Читать дальше →
Всего голосов 18: ↑15 и ↓3+12
Просмотры6.1K
Комментарии 3

Impala vs Hive vs Spark SQL: Выбор правильного SQL движка для правильной работы в Cloudera Data Warehouse

SQLApacheBig DataHadoopData Engineering
Перевод


Нам всегда не хватает данных. И мы не просто хотим больше данных… мы хотим новые типы данных, которые позволят нам лучше понимать свою продукцию, клиентов и рынки. Мы все-время находимся в поиске новых данных, данных всех форм и размеров, структурированных и не очень. Мы хотим распахнуть свои двери для нового поколения бизнес-специалистов и технических специалистов, которые будут увлеченно вместе с нами открывать новые базы данных и технологии, которые впоследствии изменят характер того, как мы взаимодействуем с данными и какое влияние они оказывают на нашу жизнь.
Читать дальше →
Всего голосов 7: ↑7 и ↓0+7
Просмотры5.8K
Комментарии 3

Apache Bigtop и выбор Hadoop-дистрибутива сегодня

Блог компании РостелекомJavaApacheХранение данныхHadoop


Наверное, ни для кого не секрет, что прошлый год для Apache Hadoop стал годом больших перемен. В прошлом году произошло слияние Cloudera и Hortonworks (по сути, поглощение второго), а Mapr, в виду серьезных финансовых проблем, был продан Hewlett Packard. И если несколькими годами ранее, в случае on-premises инсталляций, выбор чаще приходилось делать между Cloudera и Hortonworks, то сегодня, увы, этого выбора у нас не осталось. Сюрпризом стал еще и тот факт, что Cloudera с февраля этого года объявила о прекращении выпуска бинарных сборок своего дистрибутива в публичный репозиторий, и теперь они доступны лишь по платной подписке. Конечно, возможность загрузки последних версий CDH и HDP, выпущенных до конца 2019-го года, все еще есть, и поддержка по ним предполагается в течение одного-двух лет. Но что же делать дальше? Для тех, кто ранее платил за подписку, ничего не изменилось. А для тех, кто не хочет переходить на платную версию дистрибутива, но при этом хочет иметь возможность получать свежие версии компонентов кластера, а также патчи и прочие обновления, мы и подготовили эту статью. В ней мы рассмотрим возможные варианты выхода из сложившейся ситуации.

Статья больше обзорная. В ней не будет сравнения дистрибутивов и подробного их разбора, а также не будет рецептов по их установке и настройке. А что же будет? Мы вкратце расскажем про такой дистрибутив как Arenadata Hadoop, который по праву заслужил наше внимание ввиду своей доступности, что на сегодня большая редкость. А затем поговорим про Vanilla Hadoop, в основном про то, как его можно “приготовить” с помощью Apache Bigtop. Готовы? Тогда добро пожаловать под кат.
Читать дальше →
Всего голосов 16: ↑15 и ↓1+14
Просмотры4.4K
Комментарии 3

Hadoop мертв, да здравствует Hadoop! Или что новенького в Cloudera?

Блог компании ClouderaApacheBig DataХранение данныхHadoop
Recovery mode

Привет, Хабр! Меня зовут Кирилл, я инженер по решениям в Cloudera, и сегодня мне выпала честь представлять всю команду, работающую с регионом СНГ. Мы очень рады, что наконец-то можем делиться полезными материалами и новинками мира больших данных с вами. В последнее время у нас появилось много нового, поэтому начиная писать эту статью волновались, как бы она не превратилась в неподъемный лонгрид. Постарались собрать ниже только самое основное и, к сожалению, в этой статье не будет много технической информации, но мы быстро это исправим.

Узнать о новинках
Всего голосов 7: ↑3 и ↓4-1
Просмотры3.8K
Комментарии 24

Настройка DBT + Spark для кластера Cloudera on-prem

Блог компании НеофлексSQLHadoop


Для управления кодом Spark-приложений мы используем подход, описанный в предыдущей статье.

Речь идет об управлении качеством кода при разработке Spark ETL, чтобы не превратить работу над проектом в полет души, пугающий даже автора. В результате Spark ETL application выглядит просто как последовательность Spark SQL-запросов. Сама ETL-трансформация описывается как объект в отдельном файле конфигурации.
Читать дальше →
Всего голосов 2: ↑2 и ↓0+2
Просмотры499
Комментарии 0

Data governance: добавление сторонних метаданных в Apache Atlas

Блог компании ClouderaData MiningBig DataХранение данныхData Engineering
Перевод

Управление и устойчивая обработка данных являются важнейшим фактором успеха практически во всех организациях. В то время как платформа Cloudera Data Platform (CDP) уже поддерживает весь жизненный цикл данных от 'Edge до AI', мы в Cloudera полностью осознаем, что предприятия имеют больше систем за пределами CDP. Очень важно избегать того, чтобы CDP становилась ещё одной обособленной платформой в вашем ИТ-ландшафте. Чтобы исправить это, она может быть полностью интегрирована в существующую корпоративную ИТ-среду, какой бы разнообразной она ни была, и даже помогать отслеживать и классифицировать широкий спектр существующих активов данных, чтобы обеспечить полную картину от начала и до конца. В этом блоге мы выделим ключевые аспекты CDP, которые обеспечивают управление данными и покажем, как их можно расширить, чтобы включить в них метаданные для не связанных с CDP систем со всего предприятия.

Читать далее
Рейтинг0
Просмотры666
Комментарии 0

Как построить современное аналитическое хранилище данных на базе Cloudera Hadoop

Блог компании GlowByteBig DataХранилища данныхHadoop

Привет.

В конце прошлого года GlowByte и Газпромбанк сделали большой совместный доклад на конференции Big Data Days, посвященный созданию современного аналитического хранилища данных на базе экосистемы Cloudera Hadoop. В статье мы детальнее расскажем об опыте построения системы, о сложностях и вызовах с которыми пришлось столкнуться и преодолеть и о тех успехах и результатах, которых мы достигли.

Строить хранилище!
Всего голосов 5: ↑4 и ↓1+3
Просмотры3.3K
Комментарии 6

Cloudera Data Platform как многогранное ценностное предложение

Блог компании ClouderaBig Data
Перевод

Cloudera Data Platform (CDP) представляет собой сдвиг парадигмы в современной архитектуре платформы данных, удовлетворяя все существующие и будущие потребности в аналитике. Она основана на технологиях CDH (Cloudera Data Hub) и HDP (Hortonworks Data Platform) и реализует целостную интегрированную платформу данных - от периферийных систем до искусственного интеллекта, помогая заказчикам ускорить сложные конвейеры данных и "демократизировать" активы данных.

Читать далее
Всего голосов 1: ↑0 и ↓1-1
Просмотры467
Комментарии 7
1