Статьи / Закладки / Профиль I_v_g / Хабр

Как стать автором

Igor Gorbenko @I_v_g

Big Data and Cloud

Профиль Публикации 8Комментарии 21Закладки 19

yonesko 11 фев 2021 в 16:08

ClickHouse: как устроен MergeTree

8 мин

31K

Администрирование баз данных*

Туториал

Моя команда использует ClickHouse как хранилище для 100 млрд записей с трафиком по 300 млн в сутки и поиском по таблице. Я расскажу об устройстве движка таблиц MergeTree. Рассказ буду вести, показывая физические данные, а не абстрактные схемы.

Читать дальше →

+33

AlexeySushkov 22 окт 2019 в 11:20

Что нам стоит IoT построить? Свой IoT на Amazon за один день

7 мин

9.1K

Анализ и проектирование систем*Node.JS*Amazon Web Services*Разработка для интернета вещей*Облачные сервисы*

Начать разбираться с IoT (Internet of Things) платформами меня останавливало отсутствие IoT устройства, которое было бы совместимо по протоколам и способам доступа. Но когда я понял, что в качестве устройства можно использовать обыкновенный смартфон, то реализация работающей цепочки заняла один день.

Возьмем смартфон, который будет эмулировать IoT устройство c датчиками температуры, влажности и давления и отсылать показания на Amazon IoT платформу. На платформе заведем правило, которое при поступлении данных от нашего устройства будет вызывать сервис нотификаций, который в свою очередь будет отсылать e-mail с полученными данными.

Такая система, конечно, несет мало практической ценности, но позволяет разобраться, как все устроено:

Почему именно IoT платформа от Amazon? И зачем вообще нужно понимать, как работают IoT платформы?

Читать дальше →

+4

I_v_g 5 июл 2021 в 13:18

Говорят, программист — ненастоящий! Или «живьём брать самозванцев!»

17 мин

8.7K

Исследования и прогнозы в IT*Карьера в IT-индустрииМозгЗдоровьеИнтервью

Привет Хабр!

Так уж повелось, что о синдроме самозванца в IT-мире знает, наверное, каждый из нас. Об этом часто можно услышать на конференциях, блогах, твиттере, разглядеть в коллегах или в себе…

Как человеку, связанному с IT, мне удалось создать подборку рассказов знакомых и коллег по этой теме. И сегодня мы поговорим про это интересное явление и узнаем, как подвержены данному синдрому разные люди из нашей отрасли в зависимости от опыта и занимаемой роли.

Вместе с практикующим врачом-психотерапевтом Романом Вишняковым на основе собранной выборки попытаемся понять, так ли подвержена индустрия синдрому самозванца, как часто о нем говорят.

Под катом много всего интересного! Поехали!

Читать далее

+2

I_v_g 5 мая 2020 в 10:19

Интеграция Aviasales API с Amazon Kinesis и простота serverless

14 мин

6.5K

Python*Программирование*Облачные вычисления*Amazon Web Services*Big Data*

Привет, Хабр!

А вы любите летать на самолетах? Я обожаю, но на самоизоляции полюбил еще и анализировать данные об авиабилетах одного известного ресурса — Aviasales.

Сегодня мы разберем работу Amazon Kinesis, построим стримминговую систему с реал-тайм аналитикой, поставим NoSQL базу данных Amazon DynamoDB в качестве основного хранилища данных и настроим оповещение через SMS по интересным билетам.

Все подробности под катом! Поехали!

Читать дальше →

+9

I_v_g 4 янв 2020 в 20:17

Multiprocessing и реконсиляция данных из различных источников

9 мин

8.1K

Python*PostgreSQL*Программирование*Алгоритмы*Big Data*

Привет, Хабр!

В условиях многообразия распределенных систем, наличие выверенной информации в целевом хранилище является важным критерием непротиворечивости данных.

На этот счет существует немало подходов и методик, а мы остановимся на реконсиляции, теоретические аспекты которой были затронуты вот в этой статье. Предлагаю рассмотреть практическую реализацию данной системы, масштабируемой и адаптированной под большой объем данных.

Как реализовать этот кейс на старом-добром Python — читаем под катом! Поехали!

(Источник картинки)

Читать дальше →

+9

I_v_g 10 мая 2019 в 08:03

Apache Kafka и потоковая обработка данных с помощью Spark Streaming

9 мин

33K

Python*Программирование*Amazon Web Services*Big Data*Облачные сервисы*

Туториал

Привет, Хабр! Сегодня мы построим систему, которая будет при помощи Spark Streaming обрабатывать потоки сообщений Apache Kafka и записывать результат обработки в облачную базу данных AWS RDS.

Представим, что некая кредитная организация ставит перед нами задачу обработки входящих транзакций «на лету» по всем своим филиалам. Это может быть сделано с целью оперативного расчета открытой валютой позиции для казначейства, лимитов или финансового результата по сделкам и т.д.

Как реализовать этот кейс без применения магии и волшебных заклинаний — читаем под катом! Поехали!

(Источник картинки)

Читать дальше →

+16

ARG89 31 мар 2017 в 10:27

Мифы о Spark, или Может ли пользоваться Spark обычный Java-разработчик

31 мин

45K

Программирование*Java*Scala*Блог компании JUG Ru Group

Продолжаем расшифровывать и местами облагораживать хардкорные доклады спикеров JPoint 2016. Сегодня доклад поменьше, всего час с копейками, соответственно, концентрация пользы и отжига на одну минуту зашкаливает.

Итак, Евгений EvgenyBorisov Борисов о Spark, мифах и немного о том, дествительно ли тексты Pink Floyd адекватнее, чем у Кэти Пэрри.

Это будет необычный доклад о Spark.

Обычно много рассказывают про Spark, какой он крутой, показывают код на Scala. Но у меня немного другая цель. Во-первых, я поговорю о том, что такое Spark и зачем он нужен. Но основная цель — показать, что вы, как Java-девелоперы, можете прекрасно им пользоваться. В этом докладе мы развеем несколько мифов о Spark.

+26

ru_vds 28 фев 2019 в 15:00

Изучаем Docker, часть 6: работа с данными

5 мин

217K

Веб-разработка*Виртуализация*Блог компании RUVDS.com

Туториал

Перевод

В сегодняшней части перевода серии материалов о Docker мы поговорим о работе с данными. В частности — о томах Docker. В этих материалах мы постоянно сравнивали программные механизмы Docker с разными съедобными аналогиями. Не будем отходить от этой традиции и здесь. Данные в Docker пусть будут специями. В мире существует множество видов специй, а в Docker — множество способов работы с данными.

→ Часть 1: основы
→ Часть 2: термины и концепции
→ Часть 3: файлы Dockerfile
→ Часть 4: уменьшение размеров образов и ускорение их сборки
→ Часть 5: команды
→ Часть 6: работа с данными

Читать дальше →

+25

I_v_g 25 фев 2019 в 10:59

Архитектура хранилищ данных: традиционная и облачная

8 мин

170K

Анализ и проектирование систем*SQL*Amazon Web Services*Хранилища данных*Облачные сервисы*

Привет, Хабр! На тему архитектуры хранилищ данных написано немало, но так лаконично и емко как в статье, на которую я случайно натолкнулся, еще не встречал.

Предлагаю и вам познакомиться с данной статьей в моем переводе. Комментарии и дополнения только приветствуются!

(Источник картинки)

Читать дальше →

+11

M0sTH8 23 окт 2015 в 05:08

С чего начать новичку в Go

2 мин

160K

Туториал

Если вы решили попробовать замечательный язык Go, но не знаете с чего начать, вам прямая дорога в этот пост, где я постарался перечислить все необходимые для новичков ресурсы.

Читать дальше →

+44

Plarium 9 янв 2019 в 15:01

Data Science: книги для начального уровня

3 мин

71K

Python*Data Mining*Big Data*Блог компании PlariumМашинное обучение*

Data Science — наука о данных, возникшая на стыке нескольких обширных направлений: программирования, математики и машинного обучения. Этим обусловлен высокий порог вхождения в профессию и необходимость постоянно получать новые знания.

Ключевыми навыками для начинающих специалистов являются:

умение писать код (Python);
способность визуализировать свои результаты;
понимание того, что происходит «под капотом».

На эти три категории разделены книги, которые специалисты Plarium Krasnodar подобрали для читателей с начальными знаниями в Data Science.

Читать дальше →

+17

I_v_g 8 янв 2019 в 13:39

Бессерверный REST API «на коленке за 5 минут»

8 мин

20K

Python*Программирование*Amazon Web Services*API*Облачные сервисы*

Привет, Хабр! Сегодня продолжим разговор о возможностях, которые предоставляет нам Amazon Web Services и о том, как эти возможности использовать в решении прикладных задач.

На простом примере рассмотрим создание буквально за несколько минут собственного бессерверного автомасштабируемого REST API с разбором кейса — получения списка для ресурса.

Интересно? Тогда заходим под кат!

(Источник)

Читать дальше →

+23

I_v_g 7 сен 2018 в 16:49

MongoDB и исследование рынка ИТ-вакансий

9 мин

7K

Python*SQL*Data Mining*NoSQL*MongoDB*

Из песочницы

Вы когда-нибудь анализировали вакансии?

Задавались вопросом, в каких технологиях наиболее сильна потребность рынка труда на текущий момент? Месяц назад? Год назад?

Как часто открываются новые вакансии Java-разработчиков в определенном районе Вашего города и как активно они закрываются?

В этой статье я расскажу Вам, как можно достичь желаемого результата и построить отчетную систему по интересующей нас теме. Поехали!

(Источник картинки)

Читать дальше →

+16

I_v_g 15 окт 2018 в 19:13

Облачные сервисы Amazon и анализ инвестиционного портфеля

18 мин

9K

Python*Программирование*Анализ и проектирование систем*Облачные сервисы*Финансы в IT

В последнее время на фондовых рынках наблюдается высокая волатильность, когда, например, стабильная бумага известной компании может враз потерять сразу несколько процентов на новостях о санкциях против ее руководства или наоборот взлететь до небес на позитивном отчете и ожиданиях инвесторов о сверхприбыльных дивидендах.

Как же определить, принесло ли владение данной ценной бумагой доход или одни лишь убытки и разочарование?

(Источник)

В этой статье я расскажу Вам как определять и визуализировать скорректированный финансовый результат по ценным бумагам.

На примере клиентской отчетности Открытие Брокер мы рассмотрим парсинг и консолидацию брокерских отчетов для фондового рынка, построение архитектуры облачной отчетной системы с последующим простым и удобным анализом в AWS Quicksight.

Читать дальше →

+11

dude_sam 13 янв 2015 в 14:48

14 вопросов об индексах в SQL Server, которые вы стеснялись задать

26 мин

1.1M

Веб-разработка*Программирование*SQL*Microsoft SQL Server*

Туториал

Перевод

Индексы — это первое, что необходимо хорошо понимать в работе SQL Server, но странным образом базовые вопросы не слишком часто задаются на форумах и получают не так уж много ответов.
Роб Шелдон отвечает на эти, вызывающие смущение в профессиональных кругах, вопросы об индексах в SQL Server: одни из них мы просто стесняемся задать, а прежде чем задать другие сначала подумаем дважды.

От переводчика

Данный пост является компиляцией двух статей Роба Шелдона:

SQL Server Index Basics от 25 ноября 2008 года (заметка даёт понимание основных терминов)
14 SQL Server Indexing Questions You Were Too Shy To Ask от 25 марта 2014 года (собственно, ради неё всё и затевалось)

Если вы пишите запросы на языке T-SQL, но плохо понимаете откуда берутся данные, то стоит прочитать данный перевод.
Если же вы захотите знать больше, то в конце перевода я даю тройку книг с которых следует двигаться дальше.

Перейти к чтению

+34

Dmitry21 3 дек 2015 в 16:30

Мастер-класс Бориса Вольфсона. Основы Agile

25 мин

108K

Блог компании VKБлог компании hh.ruУправление разработкой*

Туториал

Этот пост написан по мотивам мастер-класса Бориса Вольфсона (директора по развитию HeadHunter), посвященного (сюрприз!) основам Agile. Материал будет полезен всем, кто либо совсем не знаком с данной методологией разработки сложного ПО, либо имеет о ней смутное представление.

Читать дальше →

+31

amokryshev 19 янв 2015 в 13:54

Основные функции ETL-систем

7 мин

321K

Веб-разработка*Анализ и проектирование систем*

Из песочницы

ETL – аббревиатура от Extract, Transform, Load. Это системы корпоративного класса, которые применяются, чтобы привести к одним справочникам и загрузить в DWH и EPM данные из нескольких разных учетных систем.

Вероятно, большинству интересующихся хорошо знакомы принципы работы ETL, но как таковой статьи, описывающей концепцию ETL без привязки к конкретному продукту, на я Хабре не нашел. Это и послужило поводом написать отдельный текст.

Читать дальше →

+4

IsaNesquik 2 фев 2018 в 14:58

Какие привычки делают меня лучше как разработчика ПО?

8 мин

18K

Программирование*

Из песочницы

Привет, Хабр! Представляю вашему вниманию перевод статьи «What habits made me a better Software Engineer?» от Sonny Recio.

Наши привычки — это ежедневные шаблоны поведения в жизни. Они могут быть как плохими, так и хорошими. Привычки могут быть жизненно необходимыми, например, потребность в еде 3 раза в день. Есть и такие привычки, которые помогают быть здоровым — занятие в тренажерном зале 3-4 раза в неделю. Но есть также привычки, которые портят тело, такие как курение и ежедневное распитие алкогольных напитков.

Наконец, есть привычки, которые сделают вас успешнее в любой профессии, в которой вы работаете. С помощью привычек человек становится экспертом, гением и получает навыки в своей профессии. Это не происходит за одну ночь, но это возможно. Самые продуктивные и успешные люди скажут, что привычки — это то, что сделало их успешными. И я не могу с этим не согласиться.

Мне потребовалось какое-то время, прежде чем я начал развивать привычки, которые сделали меня лучше как разработчика ПО. Благодаря работе с разными клиентами в различных отраслях, я начал развивать навыки, от которых мне сейчас трудно отказаться, поскольку они позволяют мне быть лучше с каждым днем.

Если вас заинтересовали мои слова, вот некоторые из привычек, которые я сформировал, чтобы стать успешным. Вы их можете также использовать:

Читать дальше →

+10

unfilled 13 дек 2012 в 17:22

Всё что вы стеснялись спросить о бэкапах Microsoft SQL Server

14 мин

212K

Microsoft SQL Server*

Перевод

В ходе проведения презентаций о бэкапах и восстановлении баз данных SQL Server, обычно задаются два типа вопросов. Первые задаются прямо по ходу презентации из зала, вторые задаются уже после, в приватной беседе. Эти, «приватные» вопросы, зачастую более интересны и я попробую дать ответы на наиболее сложные и интересные из них, вместо того чтобы писать ещё одну статью о том как вы должны делать бэкапы, или почему вы должны делать бэкапы, или даже почему вы должны проверять свои бэкапы (но вы и вправду должны проверять свои бэкапы).

Читать дальше →

+16