NikolaySivko 20 авг 2018 в 14:56

Простые метрики и способ сэкономить время при поиске проблем в инфраструктуре

2 мин

9.8K

Блог компании okmeter.ioНастройка Linux*Системное администрирование*

+36

Комментарии 10

youROCK 20 авг 2018 в 16:35

Удачи с виртуалками… Эх…

youROCK 20 авг 2018 в 16:39

Поясню комментарий: в виртуализированной среде зачастую очень сложно отлаживать проблемы производительности из-за многих факторов:
1. Недоступность многих метрик производительности (в том числе наверняка cpu throttle не пробрасывается)
2. «Шумные соседи» могут, к примеру, вымывать кеш процессора, повышая CPU usage в вашей системе, но при этом суммарно ресурсов будет всем хватать
3. Практически всегда отсутствие возможности посмотреть метрики хостовой системы

При этом, я не утверждаю, что виртуализация вредна, но такие проблемы до сих пор никто не решил по-человечески, и вряд ли Azure или Amazon их тоже как-то прямо очень хорошо решают, к сожалению (хотя мне ни разу не удавалось их уличить в overprovisioning'е).

NikolaySivko 20 авг 2018 в 17:02

Ну да, если гипервизор вне контроля, нам приходится доверять провайдеру, тут особо ничего не придумать.
Насколько я понимаю, если виртуалка свою память выделила, то кэш ей уже никто вымыть не может, это скорее о процессах/контейнерах без лимитов памяти. С точки зрения гипервизора виртуалка это процесс (по крайней мере в kvm так), отобрать у него память вроде никак нельзя, а то что pagecache внутри виртуалки, для гипервизора просто used.
Да, это боль, но с другой стороны мы же хотели абстракции над железом — это оно и есть:)

youROCK 20 авг 2018 в 17:05

2. Имеется в виду кеш L1/L2/L3 процессора, его можно вымыть с другой VM спокойно :).

khanid 21 авг 2018 в 11:22

Ну, справедливости ради, серьёзные хостеры и провайдеры vps не занимаются, как правилом, ощутимым оверселлом. Думаю, они закладывают некоторый запас от полного исчерпания ресурсов. Это же не какие-нибудь супербюджетные вутхостинг и альфарэкс с OVZ cерверами 1cpu/1GB/40Gb/100Mbps за $10 в год. Удовлетворённость клиента для крупных провайдеров уже не на последнем месте, ибо это имидж и будущие подписки.

lioncub 20 авг 2018 в 16:38

А из-за чего температура выросла в итоге?

NikolaySivko 20 авг 2018 в 17:05

В датацентре что-то было с отводом тепла, само кончилось через 40 минут. По графику скорости падения температуры мне в FB подсказали, что у нашего хостера жидкостное охлаждение процов и что-то было с циркуляцией хладагента.

sergeymartynenko 20 авг 2018 в 17:57

Именно из-за сложности выбрать хороший порог для триггера, многие инженеры мечтают о детекторе аномалий, который без настроек сам найдет то, не знаю что :)

Попробуйте мониторинг настроить при помощи карт Шухарта. Метод известен довольно давно (с 1924 года). С тех пор очень хорошо себя зарекомендовал. И эти карты просто просятся для применения в мониторинге ЦОД-а.

Критерии можно взять из ГОСТ Р 50779.42-99. А можно из какой нибудь книги по статистическому управлению. Вот с подбором размера партии придется помучиться, это да.

NikolaySivko 21 авг 2018 в 10:44

Детектор аномалий мы будем делать, мы периодически пробуем разные подходы на реальных данных.

jetexe 21 авг 2018 в 14:57

Шухарт, детектор аномалий… Это точно статья про метрики?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий