Мониторить на серверах можно всё — загрузку памяти и CPU, трафик сети и жесткого диска, какие-то сервисы и кол-во запросов к этим сервисам.
Но примерно пару-тройку месяцев назад мы на работе стали мониторить время ответа урлов наших серверов-бекендов. Скажу сразу, время ответа в течении суток может дико скакать (иногда даже как дикий бык на родео). Потому что время ответа может зависеть от многих факторов, например, от того, был ли результат запроса уже в кеше или же считался заново, от загруженности сети в момент опроса мониторинга, загруженности сервера и т.д. Причины разные, но они все нормальные и естественные, пока время выдачи в пиковое время не выскакивает выше какого-то порога — проблем нет.
Выглядит такой график за день в нормальном режиме работы бекенда примерно как гребёнка (время в милисекундах, чем выше значение — тем хуже):
Проблемы, которые можно заметить по графику, другие (ну вот теперь я расскажу почему мониторить время отдачи урла оказалось полезным). Бывали следующие случаи, когда мониторингу заметили что:
Но примерно пару-тройку месяцев назад мы на работе стали мониторить время ответа урлов наших серверов-бекендов. Скажу сразу, время ответа в течении суток может дико скакать (иногда даже как дикий бык на родео). Потому что время ответа может зависеть от многих факторов, например, от того, был ли результат запроса уже в кеше или же считался заново, от загруженности сети в момент опроса мониторинга, загруженности сервера и т.д. Причины разные, но они все нормальные и естественные, пока время выдачи в пиковое время не выскакивает выше какого-то порога — проблем нет.
Выглядит такой график за день в нормальном режиме работы бекенда примерно как гребёнка (время в милисекундах, чем выше значение — тем хуже):
Проблемы, которые можно заметить по графику, другие (ну вот теперь я расскажу почему мониторить время отдачи урла оказалось полезным). Бывали следующие случаи, когда мониторингу заметили что:
- выкатили обновление, а оно стало работать медленней (напортачил где-то программист);
- какие-то закономерные всплески (например какой-нибудь другой сервис начинает в определённое время «песочить» этот сервис и дёргать с него страницы, дискредитируя тем самым других пользователей, нужно тщательней планировать время или частоту запросов этого стороннего «сканера»);
- отвалился какой-нибудь внешний источник данных, с которого этот сервис берёт результат, и теперь его график уже ненормально выделяется среди других (проблема не наша, но нужно разбираться с внешним источником, сообщить его администратору о проблеме);
- периодические задержки выдачи временем более секунды уже говорят о том, что где-то что-то не то, и нужно садиться ковыряться с сервисом и выяснять где именно образовалось узкое место;
- список можно продолжить...