Articles / Bookmarks / Profile of idubonos / Habr

@idubonos

User

Profile Publications 1Comments 6Bookmarks 179

olemskoi Mar 7 2017 at 10:41

Uber — причины перехода с Postgres на MySQL

19 min

102K

Open source*MySQL*PostgreSQL*SQL*Слёрм corporate blog

Translation

В конце июля 2016 года в корпоративном блоге Uber появилась поистине историческая статья о причинах перехода компании с PostgreSQL на MySQL. С тех пор в жарких обсуждениях этого материала было сломано немало копий, аргументы Uber были тщательно препарированы, компанию обвинили в предвзятости, технической неграмотности, неспособности эффективно взаимодействовать с сообществом и других смертных грехах, при этом по горячим следам в Postgres было внесено несколько изменений, призванных решить некоторые из описанных проблем. Список последствий на этом не заканчивается, и его можно продолжать еще очень долго.

Наверное, не будет преувеличением сказать, что за последние несколько лет это стало одним из самых громких и резонансных событий, связанных с СУБД PostgreSQL, которую мы, к слову сказать, очень любим и широко используем. Эта ситуация наверняка пошла на пользу не только упомянутым системам, но и движению Free and Open Source в целом. При этом, к сожалению, русского перевода статьи так и не появилось. Ввиду значимости события, а также подробного и интересного с технической точки зрения изложения материала, в котором в стиле «Postgres vs MySQL» идет сравнение физической структуры данных на диске, организации первичных и вторичных индексов, репликации, MVCC, обновлений и поддержки большого количества соединений, мы решили восполнить этот пробел и сделать перевод оригинальной статьи. Результат вы можете найти под катом.

Читать дальше →

+108

egaoharu_kensei Mar 20 at 20:10

Дерево решений (CART). От теоретических основ до продвинутых техник и реализации с нуля на Python

Hard

22 min

4.9K

Python*Data Mining*Algorithms*Machine learning*Artificial Intelligence

Tutorial

Дерево решений CART (Classification and Regressoin Tree) — алгоритм классификации и регрессии, основанный на бинарном дереве и являющийся фундаментальным компонентом случайного леса и бустингов, которые входят в число самых мощных алгоритмов машинного обучения на сегодняшний день. Деревья также могут быть не бинарными в зависимости от реализации. К другим популярным реализациям решающего дерева относятся следующие: ID3, C4.5, C5.0.

veseluha Mar 11 at 17:39

Как я обработал один миллиард строк в PHP

Medium

12 min

18K

High performance*PHP*Programming*BotHub corporate blog

Case

Translation

Вероятно, вы уже слышали о соревновании под названием "The One Billion Row Challenge" (1brc), если же нет, то предлагаю ознакомиться с репозиторием 1brc Гуннара Морлинга.

Моё участие в проекте было мотивировано присутствием в нём двух моих коллег, которые достигли лидирующих позиций.

PHP не известен своими выдающимися скоростными показателями. Тем не менее, учитывая, что я работаю над профайлером PHP, я решил исследовать его производительность на примере этого вызова.

+72

miruzzy Mar 3 at 21:45

Методы очистки данных в Pandas

Easy

5 min

7.3K

Python*Data visualization*OTUS corporate blog

Review

Привет, Хабр!

Аналитики данных часто сталкиваются с грязными данными, которые могут существенно замедлить процесс анализа. Грязны данные – это пропущенные значения, дубликаты, неконсистентные данные. Пропущенные значения заставляют нас гадать, что же было замыслено нашим коллегой; дубликаты вводят в заблуждение, умножая одно и то же на количество их копий, а неконсистентные данные заставляют нас сомневаться в каждой цифре.

Очищать грязные данные можно c Pandas. Рассмотрим основные методы.

SergeyProkhorenko Feb 24 at 10:48

UUIDv7

Medium

3 min

12K

High performance*System Analysis and Design*IT Standards*Big Data*Data storages*

Review

Седьмая версия UUID (Universally Unique Identifier Version 7, UUID Version 7, UUIDv7) является модифицированной и стандартизованной версией ULID. Проект стандарта (далее стандарт) находится в ожидании окончательной проверки редактором. Но уже имеется большое количество реализаций UUIDv7, применяемых в действующих информационных системах. В интернете доступно большое количество информации по ключевому слову UUIDv7.

+13

IVNSTN Feb 23 at 14:30

Стартуем без транзакции. Альтернативный вариант вопросов на собеседовании «по SQL»

Medium

29 min

12K

Programming*SQL*Microsoft SQL Server*

From sandbox

Статей о селектах хватает, попробуем про апдейты. "ТОП-100" вопросов не обещаю - тут бы с одним разобраться. Разработчиков OLTP-систем под MS SQL Server и кандидатов на подобные вакансии приглашаю под кат.

Код на T-SQL, и он идеален. Атомарности нет, целостность вернём ручными апдейтами, изоляция с дюрабилити только мешают. Программируем без оглядки на ACID, который жив лишь в статье википедии.

ACID поломать, код не исправить

+20

SergeyProkhorenko Feb 22 at 17:28

Как связать натуральные ключи с суррогатным в Anchor Modeling

Medium

2 min

951

High performance*System Analysis and Design*IT Standards*Big Data*Data storages*

Analytics

Хранить значения натуральных ключей необходимо, потому что они связывают хранимые данные с реальным миром (внешними классификаторами, реестрами и т.п.), и с ними работают бизнес-пользователи: в выпадающих списках, отчетах и дашбордах. Но в методологии Anchor Modeling для связи таблиц используются только суррогатные ключи, не подверженные изменениям, и это правильно. Поэтому нужно хранить связь натуральных ключей с суррогатным ключом, предпочтительно формата UUIDv7. Как же это сделать в методологии Anchor Modeling?

Получить ответ

Extremesarova Feb 21 at 16:33

Материалы для подготовки к собеседованию на позицию Data Scientist. Часть 1: Live Coding

Medium

14 min

15K

Python*SQL*МегаФон corporate blogAlgorithms*Big Data*

Roadmap

Привет! Меня зовут Артем. Я работаю Data Scientist'ом в компании МегаФон (платформа для безопасной монетизации данных OneFactor).

В данной статье разберемся что такое live coding интервью и как к нему готовиться.

Материал в первую очередь будет полезен Data Scientist'ам и ML инженерам, при этом некоторые разделы, например, Алгоритмы и структуры данных подойдут всем IT специалистам, которым предстоит пройти секцию live coding.

Moscow_Exchange Feb 16 at 09:27

Эволюция системы разработки на SQL

Easy

9 min

5.2K

SQL*Microsoft SQL Server*MOEX corporate blogDevelopment Management*

Case

Мы — SQL команда Срочного рынка Московской Биржи, занимаемся разработкой и сопровождением бэкофиса торгово-клиринговой системы Spectra с момента ее возникновения. Срочный рынок Московской Биржи — это более 500 фьючерсных и 30000 опционных инструментов, несколько миллионов сделок в день.

Торгово-клиринговая система Срочного рынка (ТКС Spectra) изначально строилась на основе MS SQL, и за пару десятков лет прошла сложный путь от нескольких серверов БД до огромной системы с сервис-ориентированной архитектурой. Долгое время вся бизнес-логика системы разрабатывалась в программном слое на серверах MS SQL: и матчинг заявок, и расчет обеспечения, и управление клиентами были реализованы на T-SQL.

На сегодняшний день весь высоконагруженный функционал вынесен в отдельные сервисы, но в базах данных остаются сотни таблиц и тысячи программных объектов. Особенностью кода является высокая когнитивная и цикломатическая сложность. Управлять этим кодом с учетом всех требований по надежности и быстродействию – очень интересная задача.

В этой статье мы хотим рассказать об эволюции нашей системы разработки на SQL.

atomlib Dec 4 2022 at 16:03

Заблуждения программистов о времени

12 min

73K

IT systems testing*Programming*System Analysis and Design*IT Standards*

Музей-скансен эпохи Средневековья в Дании в режиме обычной работы (слева) ставит целью воссоздать повседневную жизнь города на стыке XIV и XV веков. Для съёмок фильма (справа) он «погрязнел»

Для киносъёмок в музей под открытым небом Middelaldercentret внесли несколько изменений. Вместо аккуратной каменной улицы развели неприятную кашицу из грязи, не самые роскошные стеклянные окна прикрыли досками и развесили везде выцветшее тряпьё. Здания как следует измазали чем-то коричневым, кое-где зачем-то перемешав субстанцию с соломой. В случайное здание воткнули факел, а не попытались изобразить лучину или фонарь.

Причина проста: кинозритель должен узнать на экране эпоху. Приходится снабжать снимаемое полным набором заблуждений про грязных неграмотных горожан, непрекращающиеся войны и еду без специй.

При проектировании информационных систем задача стоит ровно обратная: необходимо отразить реальность и не допустить в код собственные заблуждения. Ошибок восприятия много. По крайней мере, про карты и почтовые адреса получаются длинные списки.

Попытки собрать заблуждения про время и часовые пояса на Хабре уже были шесть и десять лет назад. Но без контрпримеров не так интересно.

Заблуждение 1. В сутках 24 часа или 86 400 секунд

Иногда и кое-где стрелки часов переводят, создавая сутки длиной в 23 и 25 часов — всё очевидно. Будет неплохо углубиться в случаи поэкзотичней.

Читать дальше →

+177

313

Sivchenko_translate Jan 14 at 14:31

С новым годом: GPT в 500 строках на SQL

42 min

37K

Entertaining tasksProgramming*SQL*Machine learning*Artificial Intelligence

Translation

В минувшем году все только и говорили об ИИ и о том, как он может всё за вас сделать.

Мне нравится, когда кто-то или что-то работает за меня. Поэтому решил: попрошу-ка ChatGPT написать за меня новогодний пост:

«Эй, ChatGPT. А ты можешь реализовать большую языковую модель на SQL?»
«Нет, SQL не подходит для реализации больших языковых моделей. Язык SQL предназначен для выполнения запросов к данным, хранящимся в РСУБД и для управления этими запросами. Для реализации большой языковой модели требуются сложные алгоритмы, обширные датасеты, а зачастую — и фреймворки для глубокого обучения. SQL всеми этими возможностями не обладает.»

Что ж, лишний раз убеждаешься, что, если хочешь что‑то сделать хорошо – сделай это сам.

Давайте же воодушевимся этим оптимистическим планом и реализуем большую языковую модель на языке SQL.

+207

PatientZero Dec 26 2023 at 10:27

Почему B-деревья быстрые?

Easy

7 min

46K

Algorithms*Database Administration*Data storage*

Review

Translation

B-дерево — это структура, помогающая выполнять поиск в больших объёмах данных. Она была изобретена более сорока лет назад, однако по-прежнему используется в большинстве современных баз данных. Хотя существуют и более новые структуры индексов, например, LSM-деревья, B-дерево пока никто не победил в обработке большинства запросов баз данных.

После прочтения этого поста вы будете знать, как B-дерево упорядочивает данные и выполняет поисковые запросы.

+183

olegbunin Dec 25 2023 at 12:01

БД — это скальпель или мультитул? Куда привела эволюция СУБД в 2023 году

10 min

12K

Конференции Олега Бунина (Онтико) corporate blogDatabase Administration*Data storage*Data storages*Yandex Cloud & Yandex Infrastructure corporate blog

За последние пару десятилетий с ростом объёма данных на рынке СУБД сложился интересный ландшафт. Появились новые СУБД, при этом старые продолжали развиваться — и сориентироваться среди них становилось всё сложнее.

В этой статье предлагаем рассмотреть эволюцию разных СУБД и сравнить их между собой. Поможет нам в этом Олег Бондарь, директор по продукту в Yandex Cloud, который отвечает за развитие YDB — это транзакционная реляционная база данных с открытым исходным кодом. Статья написана по материалам его доклада на Saint Highload++.

+20

ksolodovnik Jul 13 2023 at 12:43

Логмайним Оракл

Easy

8 min

Oracle*PostgreSQL*SQL*Axenix (ex-Accenture) corporate blog

Tutorial

Перед нашей командой была поставлена задача осуществить миграцию из Oracle в PostgreSQL большой (несколько десятков терабайт) работающей базы с нагрузкой порядка 20 миллионов dml-операций в час и генерацией 2ГБ редо-логов в минуту. Особенность задачи состояла в том, что миграция должна была происходить не один-в-один, а по частям в разные шарды. А какие данные в какие шарды и в каком порядке поедут, определялось бы в процессе самой миграции, по результатам этой миграции, в режиме, так сказать, ручного управления.

anastapenko Nov 26 2023 at 16:30

Сравнение Open Source BI-платформ

Medium

10 min

15K

Open source*Data visualization*Research and forecasts in IT*Axenix (ex-Accenture) corporate blog

Review

Привет, Habr!

Меня зовут Остапенко Настя, я лидирую направление BI в компании Axenix. Год назад мы выпустили статью с большим обзором Российского рынка BI. На этот раз мы проведем сравнение трех популярных Open-Source BI-платформ: Apache Superset, Metabase и относительно нового участника - Yandex Datalens, который совсем недавно стал доступен в качестве Open-Source продукта.

+21

panyukovnikolay Oct 22 2023 at 14:31

Распределённые транзакции

Medium

10 min

31K

Java*Distributed systems*Microservices*

From sandbox

Translation

На собеседованиях на позицию middle/senior разработчика часто задают вопросы по распределенным транзакциям в микросервисной архитектуре.

Мой коллега однажды посоветовал отличную статью со сравнением основных паттернов для решения проблем распределённых транзакций.

Я проработал статью и подготовил конспект простыми словами, местами дополнил информацией из других источников и полезными ссылками.

Перед тем как начать, делюсь ссылкой на мой блог в телеграм, где я раньше всего публикую материалы по java разработке и личной эффективности.

+20

DataBanksy Oct 15 2023 at 18:54

С чем едят self service и что есть в Российском меню BI платформ

Easy

5 min

2.2K

System Analysis and Design*Big Data*Data visualization*Software

Opinion

Последнее время очень много на рынке говорят про Self Service BI (SS), что это такое и почему каждый пытается сейчас заявить, что он и есть настоящий self service?

Давайте разбираться по порядку.

-3

devozerov Jun 29 2023 at 23:17

Почему Trino такой быстрый: архитектура оптимизатора SQL-запросов

12 min

19K

SQL*Big Data*Data Engineering*CedrusData corporate blog

Аналитические системы должны эффективно обрабатывать сложные пользовательские запросы к десяткам и сотням терабайт данных (пета-?). Продвинутый оптимизатор запросов является важнейшим компонентом любого big data движка. В данной статье мы рассмотрим, как устроен оптимизатор запросов в массивно-параллельном аналитическом SQL-движке Trino.

И как же он устроен?

+14

AlekseiPodkletnov Jun 21 2023 at 08:18

Платежные системы простыми словами. Как устроены и зачем нужны Mastercard, Visa, МИР и прочие

11 min

92K

Payment systems*Finance in IT

Россия уже больше года живет без Visa и Mastercard. За это время все мы успели четко понять, что платежные системы - это не просто логотипы на банковских картах. В этой статье разбираем, как работают платежные системы, что конкретно они делают, и почему не стоит недооценивать их значимость для экономики.

+276

256

2 3 ...

8 9

Uber — причины перехода с Postgres на MySQL

Дерево решений (CART). От теоретических основ до продвинутых техник и реализации с нуля на Python

Как я обработал один миллиард строк в PHP

Рекомендации при работе с PostgreSQL

Методы очистки данных в Pandas

UUIDv7

Стартуем без транзакции. Альтернативный вариант вопросов на собеседовании «по SQL»

Как связать натуральные ключи с суррогатным в Anchor Modeling

Материалы для подготовки к собеседованию на позицию Data Scientist. Часть 1: Live Coding

Эволюция системы разработки на SQL

Заблуждения программистов о времени

Заблуждение 1. В сутках 24 часа или 86 400 секунд

С новым годом: GPT в 500 строках на SQL

Почему B-деревья быстрые?

БД — это скальпель или мультитул? Куда привела эволюция СУБД в 2023 году

Логмайним Оракл

Сравнение Open Source BI-платформ

Распределённые транзакции

С чем едят self service и что есть в Российском меню BI платформ

Почему Trino такой быстрый: архитектура оптимизатора SQL-запросов

Платежные системы простыми словами. Как устроены и зачем нужны Mastercard, Visa, МИР и прочие

Information