steff Apr 6 2011 at 18:12

Ускоряем базу данных веб-сайта

19 min

118K

Website development *

Translation

+35

Comments 67

soomrack Apr 6 2011 at 19:01

Еще полезно выбрать правильный сервер баз данных. В зависимости от задач оптимальным по быстродействию может быть и MySQL, и PostgreSQL, и Oracle, и mSQL…

zerkms Apr 6 2011 at 19:02

>> list ($usec, $sec) = explode (' ', microtime());

Господа, ей богу, аргумент у microtime() уже ввели хз сколько лет назад. Хватит жить в прошлом веке.

>> WHERE FIND_IN_SET(12,otherproductids);
Вы шутите?! Такое писать в статье про оптимизацию.

>> Есть также и другой способ записать эти запросы, но без JOIN:
Если ключевого слова JOIN не видно — это не значит, что его там нет.

В общем и целом — статья противопоказана к чтению новичками, которые могут сделать из всей этой кучи слов неверные выводы.
>> Столбцы, которые используются в JOIN (в примере — customerid), должны быть проиндексированы в первую очередь.
Любые столбцы, используемые для поиска должны быть проиндексированы.

+40

steff Apr 6 2011 at 19:20

Я согласен, некоторые приемы, описанные в статье, могут быть некорректными, но направление для поиска узких мест в производительности сайта эта статья даёт.

sectus Apr 6 2011 at 19:24

Библия может и врать про существование бога, но направление для праведной жизни она даёт…

MpaK999 Apr 7 2011 at 06:30

Может всё же УК больше даёт направления к праведности?!

zerkms Apr 6 2011 at 19:31

Вместе с очень хорошими методиками (вроде замены NOW() на дискретное значение времени) — в статье настолько много воды и всяких «странных» утверждений типа:

>> Перед запуском этой функции следует подключиться к базе данных. Большинство современных сайтов делают это автоматически

>> Если на странице выводится сразу информация о 100 заказах, нужно будет делать уже 101 запрос.
(IN придумали для слабаков, ага)

>> Но таблица с заказами, вероятно, будет постоянно меняться — в этом случае нужно быть осторожнее с индексацией.
Постоянно?! Эта статья для новичков же — откуда у вас нагрузки амазона и ебея?!

>> wget -O /dev/null -q www.mywebsite.co.uk/runhourly.php

Ну и скриншот «сложного» (запрос с 2 джоинами с объединением по FK это теперь сложный!) запроса из WP, который мало того, что написан не совсем логично (условия из WHERE нужно перенести в ON, и да — я знаю, что оптимизатор mysql это и так сделает, но я говорю о семантике), так ещё и индексы нужные не проставлены (или mysql их не использует по непонятно каким причинам).

Повторюсь, в статье материал излагается сумбурно, как будто автор вспоминал по ходу дела все знания, которые накопил за всю практику. Мечется с одного, на другое, не раскрыв мысли и давая сомнительного качества аналогии.

Лично я на эту статью (перевод или оригинал, не принципиально) ссылаться как на «пособие» по оптимизации не стал бы — благо в документации по mysql есть обширная глава, которая покрывает всё описанное (и, естественно, гораздо глубже и в большем объёме).

steff Apr 6 2011 at 19:24

Это перевод статьи. Если она вам не нравится, ставьте минус за статью, зачем карму минусовать? Выкладывают ведь такие статьи на SM, да и почти 50 добавивших в избранное за час ничего не значит?

-4

zerkms Apr 6 2011 at 19:32

Сударь, а я-то при чём?! Я вам поставил +1, за перевод. А в профиль минусовать карму вообще не ходил.

Обсуждаю я не качество перевода, а качество переводимого материала.

steff Apr 6 2011 at 19:45

Я промахнулся с комментарием) Говорил не лично вам)
Но вам за критику переводимого материала карму плюсанул.

-3

zerkms Apr 6 2011 at 19:35

>> да и почти 50 добавивших в избранное за час ничего не значит

Лично для меня — нет, не значит. Я как считал статью бесполезной и вредной, так и считаю до сих пор.

Не принимайте мою критику на личный счёт — я обсуждаю материал (автором которого является другой человек), а не конкретно ваш перевод.

+11

AndrewStephanoff Apr 6 2011 at 20:39

не мог удержаться, чтобы не сказать
«миллионы мух не могут ошибаться»

soomrack Apr 6 2011 at 19:25

> Любые столбцы, используемые для поиска должны быть проиндексированы.

Индексы бывают разными, в том же PostgreSQL есть возможность выбора между индексами на основе Хеша, B-дерева, R-дерева. Вопрос какой лучше?

B-дерево используется по умолчанию, но для поиска/выборок основанных на проверке равенства (WHERE… = ...) хеш-индекс должен быть быстрее, R-индекс в свою очередь должен быть быстрее при работе с геометрическими типами данных…

Я сказал «должен быть», потому что это теория, а на практике часто оказывается, что B-деревья быстрее (по крайней мере так было в старых версиях PostgreSQL. возможно в 9.* изменилось).

Что же касается выборок со сложными запросами, то есть еще Функциональные индексы (индекс не по значению данных, а по значению некоторой функции от них). Вот о них в первую очередь надо рассказывать новичкам, в разделе о построении индекса. Например, когда вы используете поиск по текстовым полям без учета регистра (а я обычно ищу без учета регистра), то можно построить такой индекс:

CREATE mytable_upper_text_key ON mytable (upper(mytext));

после этого наслаждаться ускорением запроса

SELECT id FROM mytable WHERE upper(mytext) = 'ИВАНОВ';

zerkms Apr 6 2011 at 19:34

Естественно. А в оракле ещё бывают битмапы. А ещё в оракле есть компрессия столбцов индексов. А ещё (в куче субд) есть function-based индексы (вы про них сказали, угу). Я не говорил, что индексы — простой инструмент. Это сложный инструмент, и как любой инструмент он должен применяться контекстно, в зависимости от решаемой проблемы.

Но я-то говорил о том, что фраза из статьи про джоин и индексы натянута, ибо индексировать нужно всё.

soomrack Apr 6 2011 at 19:46

Статья мутная, я согласен. Похожа на причесанные заметки начинающего вебмастера, у которого сложилась полная начальная картина работы сайтов на основе бд.

xtender Apr 7 2011 at 04:40

А еще… каждый индекс будет замедлять изменения значений и советовать создание индексов на все поисковые поля — это чересчур категорично. Особенно битмапы.

zerkms Apr 7 2011 at 04:54

Про битмапы — отличный аргумент :-) Буквально недавно на блокировку при обновлении битмапов наступал.

Но всё равно — это мало касается целевой аудитории статьи — новичков. У них и объёмов и нагрузок нет.

zerkms Apr 7 2011 at 05:02

А по поводу «на все поисковые поля» — ну вот давайте представим, что у нас есть таблица хотя бы на 100М записей.

Какие категории запросов есть смысл не покрывать индексами? Навскидку могу придумать рабочие запросы из ПО и редкие запросы на аналитику. Для обоих типов я бы покрыл индексами всё что нужно.

Приведёте пример типов, когда этого делать не стоит?

xtender Apr 7 2011 at 05:05

В таблице возможно, что необходимо искать по всем полям — для всех полей создавать индексы? Это тема вообще слишком большая, чтобы хоть что-нибудь категорично утверждать. Не говоря уже о том, что не так уж редко что фулскан быстрее беготни по индексам.

sectus Apr 6 2011 at 19:23

Для кого эта статья?

lol2Fast4U Apr 6 2011 at 20:08

Для тех, кто не знает о NoSQL и для тех, у кого понятия «динамический контент» и «PHP» являются синонимами.

-8

VitaZheltyakov Apr 6 2011 at 19:35

«Сокращаем количество запросов, используя JOIN»
— Выпал в осадок. Благодаря таким как Вы, мы имеем тысячи быдлокодеров, которые не умеют правильно использовать JOIN. Ни слова о том, что не следует применять JOIN на большие таблицы.

К тому же phpMiniAdmin — медленный, небезопасный и ограниченный по функциональности. Я лично советую использовать HeidiSQL.

zerkms Apr 6 2011 at 19:36

>> Ни слова о том, что не следует применять JOIN на большие таблицы.

Слишком безапелляционно :-) Что не так с джоином и большими таблицами?

VitaZheltyakov Apr 6 2011 at 20:34

Попробуйте JOIN-ом бездумно соединить пару таблиц, в которых по несколько миллионов записей — это может занять очень много времени, т.к. при этом создаётся ещё более огромная таблица.
JOIN — хороший и удобный инструмент, но он всё таки имеет некоторые ограничения в применении.

-1

Disturbed Apr 6 2011 at 21:36

ну в принципе любой бездумный запрос может занять очень много времени :)

TheShock Apr 6 2011 at 21:48

это может занять очень много времени, т.к. при этом создаётся ещё более огромная таблица.

кто вам такую глупость сказал? О.о

shmaltorhbooks Apr 6 2011 at 22:09

попробуйте так же бездумно сделать select по этим же таблицам. выяснится, что join ничем не хуже select'ов.

pietrovich Apr 6 2011 at 22:43

Все просто. Если не накладывать на выборку никаких ограничений, то действительно результатом запроса будет здоровая временная таблица. Но, если гармотно наложить условия выборки, то нормальный оптимизатор запросов сначала отфильтрует входящие в запрос таблицы и лишь потом будет джойнить то что от них осталось, таким образом в результате джойна десятка многомиллионных таблиц можно получить вменяемое количество строк почти мгновенно. Просто нужно понимать как себя ведет оптимизатор и грамотно накладывать условия выборки. А для этого нужно либо знать, либо анализировать execution plan/explain/etc.

ну в принципе любой бездумный запрос может занять очень много времени :)

ППКС

kirilloid Apr 6 2011 at 21:26

Всё так. Правда, работают медленно. Еще и лочат таблицы, создавая очередь запросов.
Для среднего магазина может быть и не критично, а вот для какой-дь онлайн-игры — очень даже.

-2

zerkms Apr 7 2011 at 03:51

Откуда вы взяли про локи? JOINы работают нормально, и никого не лочат.

pietrovich Apr 6 2011 at 19:55

>HeidiSQL
А мне вот нравится EMS MySQL Manager, или DevArt dbforge for Mysql, на худой конец.

И про джойны на больших таблицах хотелось бы услышать. Если кв какой-нибудь реализации SQL они работают отвратно то это еще не значит что так везде. Опять же джойн джойну рознь, и без проверки планов выполнения говорить о том что «это зло» рановато, имхо.

puffofsmoke Apr 6 2011 at 19:38

Переименуйте в «как чуток соптимизировать сайт, сделанный быдлокодером».

lega Apr 6 2011 at 19:40

Не относится к личной БД, но все же обратите внимание на скорость загрузки внешних дополнений (если они у вас есть): «оставьте отзыв», «одна кнопка» и т.п. которые встраиваются в html.
Мой «site performance» они просадили с 0,5сек до 2,7сек.

puffofsmoke Apr 6 2011 at 19:44

Аналогично. Яндексовые счётчик и реклама загружаются медленнее, чем сайт.

lega Apr 6 2011 at 19:53

Тогда добавлю ещё «google-analytics.com» (300мс), накинул мне 50% времени.
Но он очень хорош.

pietrovich Apr 6 2011 at 19:56

А вы их после загрузки встраивайте. Без них пользователь как-нибудь перекантуется пару секунд.

puffofsmoke Apr 6 2011 at 19:58

Разумеется они асинхронно грузятся после загрузки собственно контента и пользователь никак не страдает от моих желаний посчитать его, показать ему контекстной рекламки…

Только гуглеизмерялке оптимизированности сайта до этого нет дела.

Ueasley Apr 6 2011 at 19:45

Даешь инновационные идеи на хабре!

Dimond17 Apr 6 2011 at 22:10

сарказм

remal Apr 6 2011 at 19:55

Автор, а теперь сравните вашу статью по полезностью, к примеру, с этой: webcrunch.ru/library/development/mysql/mysql-optimization/ (2 ссылка в Гугле по запросу «оптимизация mysql логи запросов»)

ITweb Apr 6 2011 at 21:14

Наткнувшись в статье про оптимизацию БД на SELECT * FROM сразу бросил читать это…

savostin Apr 6 2011 at 22:27

Begetan Apr 6 2011 at 23:29

Сейчас изучаю как устроен небольшой интернет магазин, 50% кода по объему это инсерты и селекты в таблицах с десятками полей, которые естественно перегоняются в обычные ассоциативные массивы.

Возникает вопрос а нафига козе боян, т.е. все эти SQL базы, навороты поверх в виде кеширования мемкешед? Не проще ли хранить массивы в нативном формате прямо в оперативной памяти? Только за счет неиспользуемых полей экономим разы в объемах.

В конце концов небольшая БД пусть со 100.000 объектов по килобайту это всего 100Мбайт оперативной памяти, т.е. SQL еще не нужен.

А БД с миллиардом записей и десятками тысяч подключений уже для SQL уже слишком тяжелый процесс, там уже отказ от единого сервера и переход к noSQL.

Не пора ли уже что то придумать, чем заниматься оптимизацией архаизмов?

-2

kuber Apr 7 2011 at 00:08

«Не проще ли хранить массивы в нативном формате прямо в оперативной памяти?»

Есть такое — Oracle TimesTen, но там свои проблемы.

vanxant Apr 7 2011 at 02:34

В нормальных проектах надежность важнее скорости.
На этом все.

Begetan Apr 7 2011 at 22:12

Простите, нормальные проекты используют MySQL?

Хороший SQL код это прежде всего хранимые процедуры — Oracle, Postgres. Почти все хорошие биллинги построены на хранимых процедурах и молотят терабайты данных в реалтайме. Вот там надежность.

И кстати, такая штука про которую я говорил есть и активно развивается, называется Redis. C надежностью там все хорошо, можно настроить запись на диск тремя способами.

-1

Begetan Apr 7 2011 at 23:45

Спасибо тем, кто видя отличное от своего мнение не утруждает себя написанием обоснованных комментариев, а молча бежит минусовать карму.

Благодаря вам я стараюсь прикладывать больше сил чтобы писать более интересные посты для хабра (чтобы иметь возможность иногда свободно писать что думаю). Надеюсь что голос потраченный на меня спасет другого парня, который разозлит вас еще больше.

Однако если повернутся лицом к реальности, когда разрабатывали SQL, то 1 Габайт был недостижимым размером для винчестеров. Сегодня невозможно купить планку оперативной памяти меньше 1Гб, а noSQL стремительно развиваются в сторону повышения надежности и удобства (с производительностью и масштабируемостью там изначально хорошо).

antivir Apr 7 2011 at 00:59

Автор не указал элементарные вещи. Например, то, что запрос
SELECT * FROM orders
выполняется медленнее, чем
SELECT столбец1, столбец2, все остальные столбцы FROM orders

savostin Apr 7 2011 at 01:41

Более того — его результат не предсказуем для приложения при изменении структуры таблицы.

zerkms Apr 7 2011 at 03:56

В двух конкретно приведённых запросах — не могли бы вы привести конкретный пример, когда эта «непредсказуемость» может привести к чему-то плохому?

Для определённости представим, что код был написан не последним идиотом и в коде мы обращаемся к столбцам по имени, а не по порядковому номеру.

Приведёте?

xtender Apr 7 2011 at 04:46

Вот тут обсуждение: www.sql.ru/forum/actualthread.aspx?tid=831458&pg=-1

zerkms Apr 7 2011 at 04:56

Я же попросил конкретный пример для конкретных двух запросов, когда результат будет «непредсказуем».

xtender Apr 7 2011 at 05:01

Изменение плана — достаточно непредсказуемо? Или исчезновение строк при использовании VPD и появлении в таблицы колонки, где прав не хватает? И еще куча примеров, которые там обозначены.

zerkms Apr 7 2011 at 05:03

Изменение плана — это не изменение результата. Результат выполнения запроса — выборка. План — процесс его выполнения.

Про VPD — такого в оракле (?) не знаю, а мы говорим о mysql вообще.

xtender Apr 7 2011 at 05:11

То есть если запрос стал работать неожиданно медленно, то это нормально?
Появление лишних столбцов в запросе тоже?

мы говорим о mysql вообще

То есть в mysql надо писать как попало? Странно…
VPD — citforum.ru/database/oracle/vpd/

zerkms Apr 7 2011 at 10:27

Про VPD — очень клёво, спасибо! (недавно такую задачу решал костылём через вьюху + контекст).

Про остальное:
лично я привык писать код, который работает корректно при наличии необходимого набора столбцов, вне зависимости от наличия новых (которые я не использую так и так). Так что — нет, для меня появление лишних столбцов в коде не неожиданно, потому как поведение кода не изменится.

Про «неожиданно медленно» — вот из-за таких фраз новички потом на каждом углу и орут, что * это плохо (всегда). Опять же — перечисление столбцов не гарантирует быстрых выборок. Более того — перечисление столбцов быстрее только в ряде случаев (когда все они уже есть в индексе, например). Это частные случаи. Они должны оптимизироваться адресно, опытным ДБАшником (потому что часто программисты в деталях работы CBO не разбираются).
С другой стороны — бывают «широкие» таблицы по 20 столбцов, из которых нужно выбрать 10. В этом случае перечисление столбцов только ухудшит читабельность, не привнеся (почти наверняка) ничего к производительности (да, данных больше передаётся по сети, но их не всегда же настолько больше, что мы это заметим).

Дополнительно хочу отметить: я не защищаю * и не говорю, что select * нужно писать всегда, но я придерживаюсь мнения, что до тех пор, пока нет явной и очевидной причины перечислять столбцы — лично я оставлю *, для того чтобы запрос оставался более читабельным, как результат — более простым в поддержке.

xtender Apr 7 2011 at 10:49

Так что — нет, для меня появление лишних столбцов в коде не неожиданно, потому как поведение кода не изменится.

Про клопов по ссылке не прочитали значит? Допустим, в коде вам нужно 5 полей, а в таблице их 10-20-30, да еще и row-chaining… Поведение кода-то не изменится, но замедление будет фантастическим, кэш забьется ненужным мусором, да еще и таскать между базой и клиентом лишние мега/гигабайты ненужных данных…

zerkms Apr 7 2011 at 11:03

Я предпочитаю кешировать результаты работы отдельных функций, которые напрямую от числа столбцов не зависят.

xtender Apr 7 2011 at 10:51

В этом случае перечисление столбцов только ухудшит читабельность

напротив, улучшит ясность — что и откуда берем. особенно в серьезных больших запросах.

zerkms Apr 7 2011 at 11:04

Про большие запросы я согласен, но там это как-то получается само собой.

Я всегда начинаю любой запрос с SELECT *, и уже потом уточняю, если нужно.

msk01 Apr 7 2011 at 01:51

Хорошая статья. Еще в 2000ом году такое читал.

varnav Apr 7 2011 at 06:05

А почему вы используете PHP-модуль mysql а не более современный и быстрый mysqli?

ajaxtelamonid Apr 7 2011 at 09:17

В 2000м mysqli еще не существовало :)

ajaxtelamonid Apr 7 2011 at 09:17

Не то чтобы плохая статья, но процент шизы (типа оптимизации таблиц после коннекта к базе) слишком высок, чтобы рекомендовать её новичку.
Такое ощущение, что автор неделю назад узнал, что бывает такая база данных — mysql, и именно она стоит на его блоге.
Не ту статью вы выбрали для перевода.