zabivator Mar 16 2013 at 16:14

Проблемы MySQL оптимизатора

3 min

29K

MySQL*

+82

Comments 64

80x86 Mar 16 2013 at 16:28

В Марии с этим такая же неопределённость?

zabivator Mar 16 2013 at 16:30

Я давно не общался с разработчиками MariaDB, но если кто и перепишет оптимизатор — так это они.
Но это будет уже не совсем MySQL.
Про проблемы эти они знают.

+12

80x86 Mar 16 2013 at 16:34

Ну, я с надеждой на такие ответы и спросил.

Спасибо.

jetman Mar 16 2013 at 17:12

А в Drizzle?

zabivator Mar 16 2013 at 18:36

Drizzle… У него куча других проблем.
Не смотрел, но не думаю, что они решали проблемы описанные в посте.
У них другие цели.

eexo Mar 19 2013 at 16:14

Ввсегда радует этот оптимизм, что если кто-то что-то и сможет так это МарияДБ. Только монти и Ко, больше никто. Особенно если забыть кто собственно создал весь этот MySQL со всеми его проблемами и «ошибками в ДНК». Конечно-же виноваты Плохие Менеджеры, которые давили на Монти чтоб он разрешал выпускать отстой, Тупые Разработчки которые писали кривой код — за всеми ведь не уследишь, Обстановка на Рынке которая заставляла прогибаться под Инвесторов-которым-только-деньги-давай. Всегда виноват Кто-то Другой. Но теперь у них своя компания ~~с блекджеком..~~ без Тупых Менеджеров и Плохих Разработчиков, так что теперь точно будет все в порядке и теперь-то они точно все сделают как надо. Осталась правда Обстановка на Рынке, но зато будет кого винить в случае факапа.

Vurtatoo Mar 16 2013 at 17:19

Может ОНИ подумают хорошо и сделают очень хороший продукт с названием MySQL 6 без обратной совместимости с предыдущими MySQL…

+12

zabivator Mar 16 2013 at 18:37

Тогда это будет новый продукт, просто с тем же именем.

achekalin Mar 17 2013 at 03:11

Хорошо помню, как еще несколько лет после появления MySQL 4 все авторы публично выкладываемых скриптов/веб-приложений боялись использовать что-то большее, чем умела «тройка», просто потому, что на хостингах тройка стояла еще долгое время. И была дилема: либо ты используешь те же вложенные запросы, и имеешь кучу проблем с особо непонятливыми юзерами твоего скрипта (которые не обращают внимание на приписку в списке необходимого ПО, что MySQL должна быть "(4.0+ only)", либо воспринимаешь MySQL как тупое хранилище, не умеющее особо ничего «лишнего», и всю логику оптимизируешь именно под него.

По мне, так MySQL6, несовместимый с «предыдущим MySQL» — это просто конец кое-как воспрянувшему в глазах разработчиков «образу» MySQL как базы, которая хоть что-то умеет. Правда, нет худа без добра, даже дешевые хостинги наконец-то поставят себе PostgreSQL :)

Правда, совсем не факт, что, если в 6-ке что-то и поломают, это заметит такой уж большое число людей: далеко не все используют эту СУБД на 100%.

kaichou Mar 18 2013 at 12:17

дешевые хостинги наконец-то поставят себе PostgreSQL

кто ж в дешёвых хостингах с настройкой этого монстра разбираться будет?
мускул тем и хорош, что из коробки адекватно работает.

а для абсолютного большинства проектов смена версии не будет ничем страшной,
бо 90% программистов и так не пользуются БД сложнее, чем LEFT JOIN и GROUP BY.

VolCh Mar 16 2013 at 18:14

Материал интересный, но вот посылки, по-моему, ложные.

развивать не ломая обратной совместимости его нельзя

Как я понял, речь о внутренних интерфейсах. Если синтаксис останется прежним, то подавляющее большинство юзеров (админов и разработчиков) ничего не заметят

MySQL со сломанной обратной совместимостью никому не нужен.

Весьма спорно. Даже если синтаксис запросов и/или внешних API изменится незначительно. Инерция очень велика.

zabivator Mar 16 2013 at 18:35

> Как я понял, речь о внутренних интерфейсах. Если синтаксис останется прежним, то подавляющее большинство юзеров (админов и разработчиков) ничего не заметят

Неверно. Сломанный Storage Engine API == переделка всех storage engine.
Многой информации там просто нету.
Например, Merge Engine — я вижу проблемы в реализации новых функций.
С другими тоже непросто — те же индексы в InnoDB придётся _существенно_ переделывать.

В общем, там кругами по воде будет расходиться.

> Весьма спорно. Даже если синтаксис запросов и/или внешних API изменится незначительно. Инерция очень велика.

Storage Engine API — внешнее.

VolCh Mar 16 2013 at 18:42

Как много людей/компаний разрабатывают свои Storage Engine?

Когда я вызываю какую-нибудь mysql_query(), я разве напрямую к нему обращаюсь?

zabivator Mar 16 2013 at 18:44

Когда вы вызываете mysql_query(), вы зовёте код, который зовёт внешние (относительно MySQL) storage engine.
unique row count добавить в API просто
Починить NULL'ы — это архитектурная переделка оптимизатора и индексов во всех storage engine.

Я в посте недостаточно правильно выразился.
Проблема не только в API как таковом, но и в том, как под него заточен оптимизатор и engines.

symbix Mar 16 2013 at 20:02

А null-ы в libinnodb тоже сломаны, или это mysql-евская специфика?

zabivator Mar 16 2013 at 20:08

Прочитайте пост. Это API сломано. Все storage engine, by degisn.

symbix Mar 16 2013 at 21:21

Прочитал. Я понимаю, что innodb — тот, что в составе mysql — так работает.

Есть отдельный embeddable innodb (ныне HailDB), который используют в других СУБД как storage engine (тот же riak) — потому и поинтересовался, сломана ли innodb изначально, или был сделан специальный патч именно для mysql — может, вы в курсе :)

symbix Mar 16 2013 at 21:26

Поясню, почему спрашиваю — когда бегло смотрел исходники mysql, создалось впечатление, что InnoDB — единственное, что написано относительно вменяемо.

youROCK Mar 17 2013 at 01:59

Потому что это было подарено проекту MySQL, нежели написано самостоятельно :).

symbix Mar 17 2013 at 02:05

Да, сразу видно, что другие люди писали :)

VolCh Mar 16 2013 at 20:09

Для меня это все же внутренний API, ну, или API расширений/плагинов. Но не внешний точно, с внешним взаимодействует конечный пользователь (в данном случае разработчики продуктов, использующих MySQL, и во внутреннею архитектуру вникающие разве что из любопытства, ну как я :).

Между «нельзя» и «сложно» большая разница. то есть дело, получается не в том, что сложно изменить API, а что для достижения цели придется переделывать как архитектуру «фреймворка» MySQL, так и архитектуру его «расширений»? Но это же сложно, а не невозможно.

И всё же, если вы в теме, много ли сторонних Storage Engine? Или речь только о тех, что входят в стандартный комплект поставки и решение все же изменить архитектуры коснется лишь разработчиков MySQL как единого продукта?

zabivator Mar 16 2013 at 20:13

Используемых — порядка двадцати (суммарно).
А как вы определяете, какие сторонние, какие нет?
Вот XtraDB — сторонний?

VolCh Mar 16 2013 at 20:32

Грубо, то что можно скачать на dev.mysql.com/downloads/mysql/ или прочитать на dev.mysql.com/doc/refman/5.6/en/storage-engines.html

vitalif Mar 18 2013 at 02:12

> Неверно. Сломанный Storage Engine API == переделка всех storage engine.

Ну во-первых, разве нельзя доработать не ломая _обратную_ совместимость, просто добавив новые фичи? Разве так сложно добавить в АПИ пару новых чисел? Ну это условно, по-хорошему надо продумать и добавить не абы какие, а действительно нужные :-))
Единственную опасность я вижу в том, что Maria и Oracle захотят делать разные доработки и в итоге мы таки получим два несовместимых мускуля, но опять-таки — если это останется на уровне исходников и не затронет SQL (а с чего бы ему затронуть?) — заметят это только собственно разработки марии и оракла…

zabivator Mar 18 2013 at 02:18

Разве что так. Только это немало работы.

Chamie Mar 18 2013 at 11:03

По сравнению с «ничего не делать» — конечно.

ZonD80 Mar 16 2013 at 18:16

Может стоит просто спроектировать БД нормально и поставить нормальные индексы?

-12

zabivator Mar 16 2013 at 18:35

А что, в «нормально» спроективрованных БД не нужны outer join'ы?
Или подзапросы не используются?

kazmiruk Mar 17 2013 at 11:00

Если важна производительность — нет. Outer join — очень расточительно. Лучше уж денормализовать, чтобы не было необходимости.

paranoik Mar 16 2013 at 19:18

— Придумать StorageEngineApiEx
— Сделать прокси реализующий StorageEngineApiEx поверх StorageEngineApi
— Переписать все на StorageEngineApiEx
— Profit

VolCh Mar 16 2013 at 20:12

Проблемы, как я понял, с «Переписать все на StorageEngineApiEx». Переписывать придется прежде всего ядро, причем если плагины не переписывать одновременно, то нужно будет два ядра иметь в коде.

CKOPOBAPKuH Mar 16 2013 at 20:35

Как человек, не имеющий никакого отношения к разработке mysql, но пытавшийся в своё время получить строчку из базы по первичному ключу с помощью storage engine api (успешно), хотел бы добавить, что этот api не отличается особенным изяществом. Своего я конечно добился сам путём чтения исходников, но.

С другой стороны, непонятно:
— добавляем расширенный интерфейс, с функциями типа get_unique_row_count или get_null_row_count
— если сторадж плагин в курсе расширенного интерфейса, он сам её реализует. если нет, то тупая дефолтная реализация была приведена: get_unique_row_count = row_count / ((int) (row_count / unique_row_count_engine))
— оптимизатор использует функции расширенного интерфейса, и с умными storage engine — профит, со старыми и тупыми — всё как и раньше.

Что мешает поступить так? (хотя я догадываюсь на самом деле. миллионы строк кода и общая тяжесть. я угадал?)

(Ещё хотел бы добавить, что если вы вдруг будете делать что-то с внутренностями mysql и попытаетесь искать помощи в mailing list, то во-первых подтверждения я ждал больше суток, а во-вторых, когда меня туда включили, мой вопрос всё равно проигнорировали. Ну то есть даже никакого «go away, you moron» не было, вообще ничего)

zabivator Mar 16 2013 at 20:48

> Что мешает поступить так? (

То, что весь код заточен на сложившуюся архитектуру.
Начинать переделывать этот аспект — придётся много чего трогать, а там уже тоже проблем накопилсь, и не факт, что они менее важны, чем описываемые мною.

> (Ещё хотел бы добавить, что если вы вдруг будете делать что-то с внутренностями mysql и попытаетесь искать помощи в mailing list, то во-первых подтверждения я ждал больше суток, а во-вторых, когда меня туда включили, мой вопрос всё равно проигнорировали. Ну то есть даже никакого «go away, you moron» не было, вообще ничего)

Да, изучать внутренности может получится лишь двумя способами
1) Пообщаться с человеком, что занимается разработкой
2) Читать сорцы.

К слову, я достаточно хорошо знаком с исходным кодом replication, могу помочь, если что.

CKOPOBAPKuH Mar 16 2013 at 20:37

И ещё вопрос к автору. Не в курсе ли ты, TokuDB сделали только storage engine, или ядро они тоже исправляли?

svetasmirnova Mar 16 2013 at 22:58

Я думала, что они только storage engine сделали, однако на их сайте перечислено несколько патчей для ядра: www.tokutek.com/products/mysql-patches/ Впрочем, ни один не включён в код MySQL.

zabivator Mar 16 2013 at 20:49

> И ещё вопрос к автору. Не в курсе ли ты, TokuDB сделали только storage engine, или ядро они тоже исправляли?

Первый раз про неё слышу, потому ничего не могу сказать.

eXTreMeHawk Mar 16 2013 at 21:38

Кто-нибудь объясните «несведующему» человеку зачем нужен MySQL, когда есть православный PostgreSQL в котором и с оптимизатором все в порядке и описанных в статье проблем отродясь не было?

-5

CKOPOBAPKuH Mar 16 2013 at 21:56

потому что в постгресе очень долго не было нормальной репликации.
а ещё постгрес (по-моему и сейчас тоже) хуже чем mysql держит нагрузку из простых запросов вида update table… where id=? / select * from table where id=? — то есть время ответа скачет. особенно если мерить 99.5 перцентиль — 0.5% запросов супердолго работают. То есть работали (как сейчас дела, не знаю). И ещё не дай бог вакуум не вовремя запустится.

DurRandir Mar 16 2013 at 22:38

a) глобальный вакуум не советуют использовать лет пять-шесть. да, автовакуум надо настраивать, но постгри «из коробки» вообще странен (и тут его ключевое отличие от mysql — тот из коробки худо-бедно, но работает на нормальных объёмах данных)
б) «простые» апдейты, не затрагивающие индекс, заметно ускорили в 8.3, добавив heap-only tuples
в) репликации там уже больше 2х лет)

eXTreMeHawk Mar 16 2013 at 22:43

Это все было когда-то давно, сейчас PostgreSQL абсолютно взрослая и полноценная БД, лишенная указанных Вами недостатков. А еще Postgres постоянно развивается, чего нельзя сказать про MySql.

Недавно переносил проект с MySql на Postgres, — никаких значительных трудностей не встритил, все получилось очень даже мило…

VolCh Mar 16 2013 at 23:06

С Постгри до этого дело имели?

eXTreMeHawk Mar 17 2013 at 15:04

Совсем немного и очень давно… А сейчас уже один недавний проект на нем переделал и новый большой проет пишем уже сразу на PostgreSQL.

CKOPOBAPKuH Mar 16 2013 at 23:06

Ну, новые проекты на постгресе делают часто (это заметно по хантим'у). А вот то что многие существующие проекты на mysql, объяснить можно как раз детскими болезнями постгреса.
(ну, и доступностью mysql на копеечных шаред хостингах, наверное)

> Недавно переносил проект с MySql на Postgres, — никаких значительных трудностей не встритил, все получилось очень даже мило…

А большой проект?

zapimir Mar 16 2013 at 23:08

Какие проблемы MySQL решились переходом на Postgres?

eXTreMeHawk Mar 17 2013 at 15:14

Пока еще финальные выводы делать рано, надо годик понаблюдать. Но сразу могу сказать, что благодаря использованию расширения IntArray можно теперь, скажем, у статьи хранить прямо в поле типа «массив» список айдишников ее авторов, на само поле можно повесить gin индекс и запрос на поиск всех статей с указанным id автора будет работать используя этот индекс, то есть не нужна больше промежуточная таблица для связи статей и авторов, не нужен join в запросах.

zapimir Mar 17 2013 at 15:51

Ну, ок, а какие проблемы MySQL вы хотели решить этим переходом? Или переход ради перехода? Избавление от промежуточной таблицы с одной стороны звучит хорошо, но действительно ли это дало прирост производительности, так как зачастую усложнение внутренней структуры при внешней простоте может негативно сказываться на производительности. В случае с промежуточной таблицей мы имеем очень быструю табличку с фиксированным размером строки, а в случае с массивом айдишников — поле переменной длины. Вы проводили какое-то тестирование производительности этих решений?

DmitryKoterov Mar 16 2013 at 22:01

Присоединяюсь к вопросу. В 9.2 есть и index-only scan наконец-то. Моментальные alter-ы, транзакционность изменения структуры БД. Плюс производительность на запись почти на порядок выше, чем в innodb. И почему только никак не закопают стюардессу…

VolCh Mar 16 2013 at 22:09

А не вы ли в своих книгах учили как работать с мускулом, но про постгри ничего не рассказывали? :)

DmitryKoterov Mar 16 2013 at 23:20

Это было столько лет назад… Плюс книги же эти для начинающих, а mysql тогда (да и сейчас, наверное) стоит на всех хостингах.

VolCh Mar 16 2013 at 23:34

Как-то серьезно вы восприняли. Но если так, то какие причины у тогдашнего начинающего менять привычную «дефолтную» СУБД сейчас? Пускай даже в плане кода это ему ничего почти не будет стоить — строчку для PDO поменять, а там ORM разберется.

VolCh Mar 16 2013 at 22:08

Так исторически сложилось, что в некоторых (или многих?) нишах — это стандарт де-факто уже больше десятка лет. А значит куча унаследованного кода, куча специалистов заточенных под мускул, вероятно больше и/или более развитые инструменты и, как следствие, из всего этого переход на постгри даже в новом приложении (не говоря о модификации старого) выходит дорого, без заметных преимуществ на задачах специфичных для этих ниш. А чисто субъективно мне постгри показался более сложным и в разработке, и в администрировании, когда работа с СУБД сводится в основном к CRUD и высокие нагрузки не предполагаются.

vitalif Mar 18 2013 at 02:28

Да фиг знает. Потому что не особо быстрый он, постгрес этот, а сильно серьёзных «киллерфич» как-то не наблюдается. Т.е. понятно, что всё это относительно конфигурации и способов реализации, но например на одной и той же структуре базы по относительно тупому тесту на сложных запросах из bugzilla (с правильным, переписанным, оптимизированным движком поиска) mysql 5.1 был медленнее в 2 раза, чем Pg 9.2, а mysql 5.5 уже был быстрее в 1.5 раза, чем Pg 9.2. А MariaDB была ещё чуть-чуть быстрее.

Возможностей в Pg конечно больше, одно hstore чего стоит, но не всегда они так уж нужны. Ну, тем, кто сильно любит писать логику в базе — нужны, да. Плюс этот вакуум несчастный, даже авто, всё равно задержки вносит.

И глубинные мины в оптимизаторе Pg тоже встречаются, и куда более странные, засчёт наличия большего объёма функционала. У нас, например, уже пару раз было, что один и тот же (!) запрос при выполнении с prepare (не кэшированным, а просто prepare и сразу execute) и без prepare выполнялся сильно по-разному, причём с prepare он выполнялся косо, а без — прямо. Последний раз, кстати, был как раз в пятницу.

DurRandir Mar 18 2013 at 19:07

Потому что Постгри — это не «супер-mysql», это «маленький оракл». Поэтому его надо уметь готовить. Вот прямо к вашему последнему замечанию, в 9.2 это должно было быть исправлено в стиле «просто работает», см. www.postgresql.org/docs/devel/static/release-9-2.html#AEN114087. Если именно на 9.2 с этим есть проблемы — стоит написать багрепорт/вопрос в рассылку.

DmitryKoterov Mar 18 2013 at 19:31

Не надо там уже ничего давно «уметь готовить» (если под «уметь готовить» не подразумевается настройка 4 параметров под объем памяти). Не больше, чем MySQL, по крайней мере. Даже автовакуум сделали автоматическим.

kaichou Mar 18 2013 at 12:22

Вакуум. Со всем можно примириться, кроме вакуума.

svetasmirnova Mar 17 2013 at 10:20

Обратите внимание — количество уникальных записей узнать напрямую нельзя.
MySQL считает его как количество_записей в таблице / rows_per_key

Запишем это в виде кода (как это в результате вычисляется):

int unique_row_count_mysql = row_count / rows_per_key;
int rows_per_key = row_count / unique_row_count_engine;
int unique_row_count_mysql = row_count / ((int) (row_count / unique_row_count_engine));

Поясняю:

a2 = (int)b / ((int) (b / a));

Я не поняла каким образом storage engine API не даёт сделать

a2 = (int)( (double)b / ( (double)b /(double) a) ) );

Если это в самом деле так, откройте bug report, пожалуйста.

zabivator Mar 17 2013 at 15:45

> Я не поняла каким образом storage engine API не даёт сделать

Нету такой функции в API, чтобы unique cardinality узнать

> Если это в самом деле так, откройте bug report, пожалуйста.

Файл storage/innobase/handler/ha_innodb.c

innodb_rec_per_key(
...
{
	ha_rows		rec_per_key;

....
			rec_per_key = (ha_rows)(
				(records - num_null)
				/ (index->stat_n_diff_key_vals[i + 1]
				   - num_null));
		}
	} else {
		rec_per_key = (ha_rows)
			 (records / index->stat_n_diff_key_vals[i + 1]);
	}

	return(rec_per_key);
}

./include/my_base.h:typedef ulong		ha_rows;

svetasmirnova Mar 17 2013 at 17:13

> > Я не поняла каким образом storage engine API не даёт сделать
>
> Нету такой функции в API, чтобы unique cardinality узнать

Да какая разница — есть или нету? Я говорю о приведении к типу double, с тем, чтобы округлить конечный результат. (Например, для выражений типа 100/(100/40) этого будет достаточно)

> > Если это в самом деле так, откройте bug report, пожалуйста.
>
> Файл storage/innobase/handler/ha_innodb.c

Запостите баг репорт =)

zabivator Mar 17 2013 at 17:56

bugs.mysql.com/bug.php?id=68697

svetasmirnova Mar 17 2013 at 18:21

Спасибо!

VolCh Mar 18 2013 at 00:37

a2 = (int)( (double)b / ( (double)b /(double) a) ) );

А не лучше (int) ( (long)b * a ) / b); (приведение к long чтобы избежать переполнения при умножении, исхожу, что в начале a и b int).

svetasmirnova Mar 18 2013 at 02:31

Нет, там дело в том, что b /a независимо от числителя вычисляется, а при привидении к любым целым мы теряем точность при округлении.

Daedmen Mar 17 2013 at 19:26

Так почему всетаки нельзя расширять апи?

eexo Mar 18 2013 at 12:17

это нетривиально. очень много чего надо учесть, видимо поэтому желающих взяться за изменения пока не наблюдается.

Show the best of all time