yuhenobi Jun 17 2014 at 13:58

Kdump — диагностика и анализ причин сбоев ядра

8 min

50K

Selectel corporate blog

Tutorial

+35

Comments 21

pavelodintsov Jun 17 2014 at 14:02

Буквально сегодня общались с коллегой на тему использования kdump для отладки OpenVZ ядер :)

Как первый уровень обороны, для тех, кому kdump сложен либо не нужен, могу предложить netconsole (в CentOS искаропки, в Debian/Ubuntu — github). Netconsole умеет слать сообщения от ядра на удаленный хост и при падении намного проще понять, что произошло с ядром до часа X.

Denssss Jun 18 2014 at 12:40

Ну kdump и так используется для отладки этих ядер, разве нет? ))) Если не само поторошение дампа «на месте» через gdb, то вычитывание стектрейса точно имеет место быть )

pavelodintsov Jun 18 2014 at 12:45

Брр, я честно говоря не понял что Вы имели в виду. В 99% конфигураций машин как netconsole, так и kdump отключены и если машина упала, приходится их включать/ждать повторного падения.

Да, когда машина падает повторно изымается kdump (хотя для более-менее простых багов достаточно стектрейса из netconsole) и анализируется разработчиками.

Denssss Jun 18 2014 at 12:55

Ну стектрейс из нетконсоли не всегда бывает достаточно информативен ) и далеко не всегда он есть, даже при правильной ее настройке. В этих случаях kdump решает, но если позволяет версия дистрибутива. Просто эти два инструмента взаимно дополняют друг-друга и если есть возможность использовать kdump, то почему это не делать? ) К тому же разработчики и саппорт OpenVZ очень любят, когда он есть )

pavelodintsov Jun 18 2014 at 13:19

Ну мы используем оба, где это возможно. Но kdump есть только в CentOS 6, например, в 5ке его нету, тоже самое касается других дистрибутивовов на не особо новых ядрах.

aymeshkov Jun 17 2014 at 14:17

Неплохой первый ход. Рекомендую ловить подобные ошибки в хост-системе и отправлять клиенту по почте или в виде SMS, как это сделано у нас :)

-8

pavelodintsov Jun 17 2014 at 14:33

Это сработает лишь в случае KVM, но не OpenVZ :)

Хотя от чего падать KVM виртуалкам, которые работают в тепличных условиях, без железа (точнее с четко изветным списком виртуальных устройств)? Если не падали стораджи и клиент не занимается отладкой ядра — имхо, не особо полезная вещь.

aymeshkov Jun 17 2014 at 14:44

За OpenVZ, равно как за HyperV и Vmware, ничего не отвечу :)
Ну а падать — например от OOM-событий.

-2

pavelodintsov Jun 17 2014 at 14:51

Ядро не паникует от OOM событий. Просто выходит из строя все ПО на сервере, но OOM не убивает ядро. Полагаю, потенциально, это возможно, если ядро не сможет выделить какой-то свой буфер, но в подавляющем числе случаев падать будет лишь юзерспейс.

И как раз в этом случае netconsole поможет — будут видны ошибки OOM, а kdump не среагирует, никак.

aymeshkov Jun 17 2014 at 16:50

Я писал не про панику ядра, а про причины падения виртуалок, о которых, изначально, и был ваш вопрос. И тут, как вы правильно отметили, рулит netconsole. Именно ей мы, кстати, и мониторим.

А что касается kernel panic'ов, то у нас на KVM виртуалках пользователи получали их на RT ядрах или, например, при использовании zswap.

В общем, что хочу сказать — если говорить об отладке сообщений и падений ядра, то, с точки зрения хостера, правильнее для начала научиться ловить и уведомлять об оомах, упсах и багах, и уже потом думать про паники.

По той простой причине, что в реальной жизни их количество соотносится в пропорции 100 к 1. И это действительно лучше делать нетконсолью.

pavelodintsov Jun 17 2014 at 18:00

А зачем RT ядра на KVM? Спец софт?

aymeshkov Jun 17 2014 at 18:38

Эксперименты пользователей :) Смысла в этом нет конечно.

amarao Jun 17 2014 at 17:51

Паникует. Как только init сносится, ядро паникует. А в виртуальной среде странности с выделением памяти куда более серьёзная проблема, чем на железе, особенно, когда граница памяти двигается.

amarao Jun 17 2014 at 16:40

От того же, от чего падают ядра на обычном железе. Дедлоки, ошибки обращения к памяти, нарушение целостности GTP и т.д.

Один nfs-север может доставить много весёлых моментов.

pavelodintsov Jun 17 2014 at 17:05

По моей практике на обычном железе в 99% случаев ядра падают от проблем железа (память, жесткие диски, сетевые карты) либо драйверов (виснущие рейд контроллеры, виснущие драйверы сетевых карт).

А в виртуальном окружении, если не таскать за собой нестабильные ядра, а брать стоковые CentOS 6/Debian 7/Ubuntu14.04 по нашей практике ничего никогда не падает, если, конечно, с физической нодой все ок и не отваливается СХД.

Ну и да, автор подтвердил, что netconsole рулез под эту задачу :)

amarao Jun 17 2014 at 17:49

Везёт. Потому что на моей практике большая часть странных проблем с ядром сводилась к проблемам в ядре.

Отказы железа, кстати, на приличном железе часто нефатальные (те же ошибки памяти — warning'и — не более, из-за ECC).

А стабильные ядра ровно так же ловят всякую неведомую херню. Потому что если бы в стабильных ядрах всё было хорошо, то у нас было бы 3.2-1, а не 3.2-64.

Skilos Jun 17 2014 at 21:09

Всегда просто в восторге от иллюстраций к вашим статьям!

TaHKucT Jun 18 2014 at 09:11

учитывая картинку к прошлой записи, нынешней картинкой нам как бы намекают что апдейтить ядро без перезагрузки можно, только если вы хотите научится пользоваться kdump и crash

pavelodintsov Jun 18 2014 at 12:27

Да, факапы при апгрейде без ребута вполне возможны :) Но на самом деле это не совсем верно назвать апгрейдом, оно же не обновляется. Просто латаются уязвимости.

UFO just landed and posted this here

pavelodintsov Jun 18 2014 at 12:29

Присеодиняюсь! :)