DoctorX 20 дек 2018 в 16:01

Оптимизация реляционных баз данных без даунтайма на примере самой нагруженной БД в Badoo

9 мин

26K

Блог компании BadooВысокая производительность*Веб-разработка*Серверная оптимизация*Администрирование баз данных*

+65

Комментарии 22

youROCK 21 дек 2018 в 01:02

Так а как вы в итоге поддерживаете уникальные индексы? Вы просто убрали все «лишние» колонки из основного инстанса и перенесли их в дополнительные? Или как? Может, я невнимательно читал статью, но я этот момент не понял.

DoctorX 21 дек 2018 в 11:40

Ключ по которому мы разбивали таблицу уже был во всех уникальных индексах, включая PK. Поэтому уникальность никак не пострадала, и так-же поддерживается средствами MySQL.

youROCK 21 дек 2018 в 13:28

То есть, у вас теперь во всех таблицах есть все колонки, по которым проверяется уникальность? То есть, вы задублировали эти данные на всех кусочках, я правильно понимаю? А как теперь осуществляется регистрация пользователя? Что происходит, если в один кусочек данные вставились, а в другие кусочки — нет?

che 21 дек 2018 в 13:57

Представь уникальный составной ключ (A, B, C) причем уникальных значений в колонке A всего, скажем, дюжина. Данные в таблицы с таким ключем разбиваем на дюжину таблиц с ключем (B, C). Ничего в итоге не дублируется и уникальность по прежнему поддерживается

youROCK 21 дек 2018 в 14:04

А, понял :). Прикольно.

gleb_l 21 дек 2018 в 13:45

Обжимайте размер записи в таблицах с большим количеством записей, как только возможно. Размер записи — ключевая вещь при Key Lookup, Range Seek, и основа компактности не только страниц с данными, но и индексов (втч с included-колонками).

Если поле можно сделать varchar вместо nvarchar — всегда делайте это. Если date вместо datetime — тоже. ПК в справочниках и значения в таблицах, которые гарантированно помещаются в small- или tinyint, нужно делать именно такими. NOT NULL значения нужно указывать явно. Миллионы FK-ссылок на короткий ПК сэкономят вам много места, а в самом справочнике больше страниц поместится в память.

Для таблиц, часто использующихся в связывании иерархии бизнес-сущностей, и несущих на себе еще и пользовательскую информацию (например UserID | RoleID | DateCreated | Description), создавайте параллельный уникальный индекс по ПК-колонкам и с теми Included-колонками, которые вам нужны для этих связок — по сути создастся усеченная копия основной таблицы с короткими записями, которая будет работать гораздо быстрее

Zhandos 21 дек 2018 в 14:12

Вы используете InnoDB и Foreign Keys? Я слышал Foreign Keys влияют на производительность отрицательно, так ли это?

DoctorX 21 дек 2018 в 14:16

Foreign Keys используются редко, только в не highload частях. В UDB их конечно нету.
InnoDB — наш основной движок. Ещё были эксперименты с MyRocks, но он не взлетел.

blind_oracle 21 дек 2018 в 15:31

FK проверяются только при INSERT/DELETE, поэтому, если их доля мала, то ничего страшного. Хотя, если можно обойтись без них — лучше обойтись :)

eefadeev 21 дек 2018 в 17:44

Если вас не интересует целостность данных можно значительно ускорить любую БД.

blind_oracle 21 дек 2018 в 18:04

Сильно зависит от структуры БД и как она используется, требований к данным.

Многие живут вообще на NoSQL-подобных решениях и ничего, как-то выживают без FK :)

eefadeev 21 дек 2018 в 18:33

Тут каждый сам решает что важнее: наличие руля и тормозов или турбины и интеркулера.

KEKSOV 21 дек 2018 в 15:33

Интересно, а какая у вас версия MySQL используется?

DoctorX 21 дек 2018 в 15:42

UDB работает на 5.5 так как мы активно используем HandlerSocket который не поддерживаться в следующих версиях. Сейчас тестируем 8.0 c memcached и x protocol как замену HandlerSocket.
На остальных бд у нас 5.7

blind_oracle 21 дек 2018 в 18:06

А для чего используете? Просто чтобы избежать оверхеда SQL-интерфейса?

DoctorX 21 дек 2018 в 18:11

Да. У нас много мелких запросов вида «Дай юзера по id». Недавний нагрузочный тест показал что если делать эти запросы на чистом sql то CPU load сервера возрастает до 70% — 85% против 30% — 35% с HS

KEKSOV 21 дек 2018 в 20:33

А версию от Percona не тестировали?

DoctorX 21 дек 2018 в 20:38

У нас она и стоит.

ewgRa 21 дек 2018 в 16:40

Спасибо за статью.

«или альтером слейва с последующей сменой их местами» — можно рассказать ваши мысли про этот способ? Пробовали? Почему на нем не остановились? По идее самый привлекательный способ, какие там подводные камни?

У нас сейчас есть такая же задача, смотрим неспешно именно в сторону master-slave и их сменой.

DoctorX 21 дек 2018 в 16:56

Это отличный способ, но чтобы им воспользоваться изменения должны быть обратно совместимы с запросами в мастер (insert, update, delete должны корректно проходить на изменённом слейве).
Таким способом можно добавить или удалить индекс, добавить колонку с default, расширить тип данных (например с int на bigint) и тд.
К сожалению наши изменения под этот формат не подходили.

ewgRa 21 дек 2018 в 17:14

> insert, update, delete должны корректно проходить на изменённом слейве
это по идее легко обеспечивается на уровне кода для всех перечисленных кейсов естественным образом. Пока изменения не вступили в силу — код о них не знает.
Остается по сути только DELETE? Удалять колонку можно когда она перестает использоваться кодом. Вроде тоже не должно быть проблемы.
Остальные операции типа MOVE, это по сути INSERT -> DELETE, их все равно придется на уровне кода обеспечивать.

У вас было что-то специфическое, что запросы переставали быть обратно совместимы? Или я где-то не вижу рояля в кустах?

DoctorX 21 дек 2018 в 17:48

Да. У нас было изменение типа данных колонки с varchar на binary с меньшей размерностью (данные тоже сжимались).
А также, как я писал выше, разделение одной таблицы на несколько.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий