aSkobin 21 дек 2018 в 18:04

Интенсив по Kubernetes: о работе саппортов

3 мин

3.7K

Блог компании СлёрмСистемное администрирование*Серверное администрирование*DevOps*Kubernetes*

1-3 февраля пройдёт Слёрм-3, интенсив по Kubernetes. Анонс и программа тут.

Сегодня расскажу немного о внутренней кухне: как мы помогаем студентам справляться с практикой и что из этого получается. Заодно будущие участники поймут, чего ждать от поддержки.

Я сам 2-3 раза в год прохожу платные курсы, всегда беру варианты с практикой, и очень редко доделываю ее до конца. Для меня ситуация выглядит, как если бы я заказал в ресторане килограммовый стейк: съел, сколько мог, остальное оставил на тарелке. Но в тех, кто едет на Слёрм, хотелось бы запихнуть всю порцию.

На первом Слёрме мы отнеслись к практике спокойно, мол, мы даем задания, а участники справляются как могут. И это привело бы к катастрофе, если бы в аудитории не нашлось инициативных и талантливых парней: «15 минут назад я писал в чат о проблеме, я ее уже решил сам и помог еще пятерым».

Поэтому на втором Слёрме кроме трех спикеров со студентами работал десяток саппортов: системных администраторов из команды Southbridge.

Откуда проблемы с практикой?

Сам подход «Do It Yourself». Можно было бы сделать Walkthrough: «скопируйте конфиг, запустите плейбук, вуаля, ваш кластер готов». Это было бы очень быстро, очень просто и очень бессмысленно. Мы пошли сложным путем: чтобы выполнить задание, нужно понять тему и вручную поправить конфиги-настройки и т.д.

Снежный ком. Все темы и задания связаны друг с другом. Если в первый день не развернул кластер, во второй не сможешь накатывать туда приложение. Самой важной и сложной темой оказался Ceph.

Жесть и факапы

Ceph — ключевая и сложная тема, а двигаться без нее дальше нельзя, поэтому массовый затык на Ceph по разрушительности был сравним с факапом. Тут саппорты легли костьми.

Ошибка на слайде. Все мы человеки, спикеры тоже. Ошибки на слайдах были, и они означали, что все 87 студентов сейчас напишут в чат, как у них ничего не работает.

Глюки трансляции. Мы купили выделенный канал у провайдера и держали резервный канал от мегафона, но по закону подлости это не спасло. В первый день Слёрма упал крупный магистральный провайдер, через которого проходил канал до сервиса трансляций Facecast. Мы запустили трансляцию на Ютубе, но за это время спикеры с очными студентами убежали вперед, и отставшие онлайн-студенты устроили скандал, вплоть до отключения от занятий. На следующий день Facecast изменил схему подключения провайдеров, но не у всех пользователей система сразу хорошо заработала. И вся волна возмущения обрушилась на наших саппортов.

(Проблему из-за упавшего провайдера решили: остановили занятия, дождались полной работоспособности и повторили весь пропущенный материал. Лаги второго дня пришлось перетерпеть).

Итак, студент просит помощи

Саппорт должен выбрать линию поведения:
— дать студенту самостоятельно позаниматься траблшутингом;
— найти ошибку студента и объяснить ее;
— сделать этап практики за студента.

Есть необнаружимые ошибки: неправильный логин, буква I вместо l (большая i вместо маленькой L), в таком духе.

Если произошел факап, к саппортам выстраивается очередь. Невозможно вдумчиво помочь сразу пятерым в условиях цейтнота.

А цейтнот был серьёзным: во внутреннем чате техподдержки за день набегало несколько тысяч сообщений. Саппорты отключались заполночь, а начинали работать часов в 6 утра (благо и саппорты, и студенты разбросаны по разным часовым поясам).

Поэтому иногда вместо разбора участники получали ответ: «Я все поправил, сейчас ваш кластер работает как надо, двигайтесь дальше». Да, «Do It Youself» похерен, но зато удалось избежать снежного кома.

Маленькие простые радости

Команда саппортов собирала вопросы из чата и специальной формы, сортировала, отвечала, сложные вопросы передавала спикерам. Поэтому подвисших вопросов не осталось.

Выяснилось, что онлайн-участникам неудобно переключаться между трансляцией и консолью, а у нас нет текстового файла с командами, только презентация на ноутбуке спикера. Поэтому один из саппортов, сидящих в зале, набирал и отправлял в телеграмм команды со слайдов.

В общем за спиной ярких спикеров стоит десяток работяг, благодаря которым подавляющее большинство участников дошло до конца практики. Благо Southbridge занимается поддержкой инфраструктуры, у нас каждый может помочь.

Слёрм-3 будет лучше, чем Слёрм-2

То, что на Слёрме-2 делалось стихийно, мы систематизируем и оптимизируем:
— закрепляем за каждым саппортом свою группу, чтобы студенты знали своего саппорта в лицо;
— пишем базу типовых ошибок и решений;
— готовим шорткаты «Если вы не справились с практикой, но хотите двигаться дальше»;
— готовим памятку участника с инструкцией по организации рабочего места и взаимодействию с саппортами.

Слёрм-3: запускаем кластер Kubernetes

Теги:

Хабы: