Articles / Profile of 2ANikulin / Habr

Никулин Анатолий @2ANikulin

Пишу код, проектирую системы

Profile Publications 5Comments 94Bookmarks 49

2ANikulin Jun 16 2017 at 07:29

Apache Spark как ядро проекта. Часть 2. Streaming, и на что мы напоролись

3 min

9.2K

Big Data*Hadoop*

Привет коллеги. Да, не прошло и три года с первой статьи, но проектная пучина отпустила только сейчас. Хочу с вами поделиться своими соображениями и проблемами касательно Spark streaming в связке с Kafka. Возможно среди вас есть люди с успешным опытом, поэтому буду рад пообщаться в комментариях.

Читать дальше →

+10

2ANikulin Nov 24 2015 at 09:47

Apache Spark как ядро проекта. Часть 1

4 min

33K

Java*Big Data*

Привет, коллеги.

С недавнего времени у нас на проекте появился Spark. В процессе разработки мы сталкиваемся с множеством трудностей, и узнаём много нового. Хочется для себя систематизировать эти знания, и за одно поделиться ими с окружающими. Поэтому я решил написать цикл статей про использование Apache Spark. Эта статья первая, и она будет вводной.

Читать дальше →

+13

2ANikulin May 23 2014 at 06:43

Hive vs Pig. На что мне столько ETL?

8 min

19K

Data Mining*Big Data*Hadoop*

Tutorial

Лучше день потерять, но потом за пять минут долететь (с)

Привет коллеги.
Хочу поделиться с вами соображениями о том, чем отличаются фреймворки Hive и Pig, входящие в экосистему Hadoop. По сути, это два очень похожих продукта, цель у которых одна — взять на себя всю техническую реализацию MapReduce, предоставив взамен возможность описывать процесс обработки данных на более абстрактном уровне. В этой статье мы увидим как выглядят выборки в этих двух системах, и попытаемся понять, в каких случаях надо использовать то или иное решение.

Читать дальше →

+19

2ANikulin Sep 26 2013 at 20:43

HBase, загрузка больших массивов данных через bulk load

4 min

11K

Java*Big Data*Hadoop*

Привет коллеги.
Хочу поделиться своим опытом использования HBase, а именно рассказать про bulk loading. Это еще один метод загрузки данных. Он принципиально отличается от обычного подхода (записи в таблицу через клиента). Есть мнение, что с помощью bulk load можно очень быстро загружать огромные массивы данных. Именно в этом я решил разобраться.

Читать дальше →

2ANikulin May 10 2013 at 10:05

Apache Thrift RPC Server. Дружим C++ и Java

5 min

24K

Programming*

From sandbox

Привет, коллеги.
Хочу в этом топике выложить инструкцию, как быстро прикрутить Thrift, к своим поделкам.
Thrift — технология для организации межпроцессного взаимодействия между компонентами системы. Была разработана где то в недрах Facebook. Посути это кросс-языковой фреймворк для создания RPC сервисов, на бинарном протоколе. С помощью этого решения можно «подружить» компоненты написанные на разных языках C#, C++, Delphi, Erlang, Go, Java, PHP, Python, Ruby, итд. Описание сигнатур сервисов и данных осуществляется с помощью специального IDL — языка. Технология, по своей сути, похожа на COM, но без всей этой обвязки с регистрацией компонент. Так же не будем забывать, что COM это технология только для Windows, в то время как Thrift — кросплатформенна.

Вобщем решил поэкспериментировать, попробовать вынести часть нагруженной-вычислительной логики из Java в С++, в надежде что нативный С++ код будет немного производительней, и за одно опробовать Thrift RPC, в надежде что это быстрее чем REST.
Как и положено, без бубнов и граблей не обошлось!

Читать дальше →