Pull to refresh
20
0
Никулин Анатолий @2ANikulin

Пишу код, проектирую системы

Send message

Apache Spark как ядро проекта. Часть 2. Streaming, и на что мы напоролись

Reading time3 min
Views9.2K
Привет коллеги. Да, не прошло и три года с первой статьи, но проектная пучина отпустила только сейчас. Хочу с вами поделиться своими соображениями и проблемами касательно Spark streaming в связке с Kafka. Возможно среди вас есть люди с успешным опытом, поэтому буду рад пообщаться в комментариях.

Читать дальше →
Total votes 10: ↑10 and ↓0+10
Comments9

Apache Spark как ядро проекта. Часть 1

Reading time4 min
Views33K
Привет, коллеги.

С недавнего времени у нас на проекте появился Spark. В процессе разработки мы сталкиваемся с множеством трудностей, и узнаём много нового. Хочется для себя систематизировать эти знания, и за одно поделиться ими с окружающими. Поэтому я решил написать цикл статей про использование Apache Spark. Эта статья первая, и она будет вводной.
Читать дальше →
Total votes 17: ↑15 and ↓2+13
Comments24

Hive vs Pig. На что мне столько ETL?

Reading time8 min
Views19K
image

Лучше день потерять, но потом за пять минут долететь (с)



Привет коллеги.
Хочу поделиться с вами соображениями о том, чем отличаются фреймворки Hive и Pig, входящие в экосистему Hadoop. По сути, это два очень похожих продукта, цель у которых одна — взять на себя всю техническую реализацию MapReduce, предоставив взамен возможность описывать процесс обработки данных на более абстрактном уровне. В этой статье мы увидим как выглядят выборки в этих двух системах, и попытаемся понять, в каких случаях надо использовать то или иное решение.
Читать дальше →
Total votes 25: ↑22 and ↓3+19
Comments38

HBase, загрузка больших массивов данных через bulk load

Reading time4 min
Views11K
Привет коллеги.
Хочу поделиться своим опытом использования HBase, а именно рассказать про bulk loading. Это еще один метод загрузки данных. Он принципиально отличается от обычного подхода (записи в таблицу через клиента). Есть мнение, что с помощью bulk load можно очень быстро загружать огромные массивы данных. Именно в этом я решил разобраться.
Читать дальше →
Total votes 10: ↑9 and ↓1+8
Comments5

Apache Thrift RPC Server. Дружим C++ и Java

Reading time5 min
Views24K
Привет, коллеги.
Хочу в этом топике выложить инструкцию, как быстро прикрутить Thrift, к своим поделкам.
Thrift — технология для организации межпроцессного взаимодействия между компонентами системы. Была разработана где то в недрах Facebook. Посути это кросс-языковой фреймворк для создания RPC сервисов, на бинарном протоколе. С помощью этого решения можно «подружить» компоненты написанные на разных языках C#, C++, Delphi, Erlang, Go, Java, PHP, Python, Ruby, итд. Описание сигнатур сервисов и данных осуществляется с помощью специального IDL — языка. Технология, по своей сути, похожа на COM, но без всей этой обвязки с регистрацией компонент. Так же не будем забывать, что COM это технология только для Windows, в то время как Thrift — кросплатформенна.

Вобщем решил поэкспериментировать, попробовать вынести часть нагруженной-вычислительной логики из Java в С++, в надежде что нативный С++ код будет немного производительней, и за одно опробовать Thrift RPC, в надежде что это быстрее чем REST.
Как и положено, без бубнов и граблей не обошлось!
Читать дальше →
Total votes 8: ↑7 and ↓1+6
Comments9

Information

Rating
Does not participate
Location
Омск, Омская обл., Россия
Registered
Activity