340,97
Рейтинг
Southbridge
Обеспечиваем стабильную работу highload-проектов
21 декабря 2018

Интенсив по Kubernetes: о работе саппортов

Блог компании SouthbridgeСистемное администрированиеСерверное администрированиеDevOpsKubernetes

1-3 февраля пройдёт Слёрм-3, интенсив по Kubernetes. Анонс и программа тут.


Сегодня расскажу немного о внутренней кухне: как мы помогаем студентам справляться с практикой и что из этого получается. Заодно будущие участники поймут, чего ждать от поддержки.



Я сам 2-3 раза в год прохожу платные курсы, всегда беру варианты с практикой, и очень редко доделываю ее до конца. Для меня ситуация выглядит, как если бы я заказал в ресторане килограммовый стейк: съел, сколько мог, остальное оставил на тарелке. Но в тех, кто едет на Слёрм, хотелось бы запихнуть всю порцию.


На первом Слёрме мы отнеслись к практике спокойно, мол, мы даем задания, а участники справляются как могут. И это привело бы к катастрофе, если бы в аудитории не нашлось инициативных и талантливых парней: «15 минут назад я писал в чат о проблеме, я ее уже решил сам и помог еще пятерым».


Поэтому на втором Слёрме кроме трех спикеров со студентами работал десяток саппортов: системных администраторов из команды Southbridge.


Откуда проблемы с практикой?


Сам подход «Do It Yourself». Можно было бы сделать Walkthrough: «скопируйте конфиг, запустите плейбук, вуаля, ваш кластер готов». Это было бы очень быстро, очень просто и очень бессмысленно. Мы пошли сложным путем: чтобы выполнить задание, нужно понять тему и вручную поправить конфиги-настройки и т.д.


Снежный ком. Все темы и задания связаны друг с другом. Если в первый день не развернул кластер, во второй не сможешь накатывать туда приложение. Самой важной и сложной темой оказался Ceph.


Жесть и факапы


Ceph — ключевая и сложная тема, а двигаться без нее дальше нельзя, поэтому массовый затык на Ceph по разрушительности был сравним с факапом. Тут саппорты легли костьми.


Ошибка на слайде. Все мы человеки, спикеры тоже. Ошибки на слайдах были, и они означали, что все 87 студентов сейчас напишут в чат, как у них ничего не работает.


Глюки трансляции. Мы купили выделенный канал у провайдера и держали резервный канал от мегафона, но по закону подлости это не спасло. В первый день Слёрма упал крупный магистральный провайдер, через которого проходил канал до сервиса трансляций Facecast. Мы запустили трансляцию на Ютубе, но за это время спикеры с очными студентами убежали вперед, и отставшие онлайн-студенты устроили скандал, вплоть до отключения от занятий. На следующий день Facecast изменил схему подключения провайдеров, но не у всех пользователей система сразу хорошо заработала. И вся волна возмущения обрушилась на наших саппортов.


(Проблему из-за упавшего провайдера решили: остановили занятия, дождались полной работоспособности и повторили весь пропущенный материал. Лаги второго дня пришлось перетерпеть).


Итак, студент просит помощи


Саппорт должен выбрать линию поведения:
— дать студенту самостоятельно позаниматься траблшутингом;
— найти ошибку студента и объяснить ее;
— сделать этап практики за студента.


Есть необнаружимые ошибки: неправильный логин, буква I вместо l (большая i вместо маленькой L), в таком духе.


Если произошел факап, к саппортам выстраивается очередь. Невозможно вдумчиво помочь сразу пятерым в условиях цейтнота.


А цейтнот был серьёзным: во внутреннем чате техподдержки за день набегало несколько тысяч сообщений. Саппорты отключались заполночь, а начинали работать часов в 6 утра (благо и саппорты, и студенты разбросаны по разным часовым поясам).


Поэтому иногда вместо разбора участники получали ответ: «Я все поправил, сейчас ваш кластер работает как надо, двигайтесь дальше». Да, «Do It Youself» похерен, но зато удалось избежать снежного кома.


Маленькие простые радости


Команда саппортов собирала вопросы из чата и специальной формы, сортировала, отвечала, сложные вопросы передавала спикерам. Поэтому подвисших вопросов не осталось.



Выяснилось, что онлайн-участникам неудобно переключаться между трансляцией и консолью, а у нас нет текстового файла с командами, только презентация на ноутбуке спикера. Поэтому один из саппортов, сидящих в зале, набирал и отправлял в телеграмм команды со слайдов.


В общем за спиной ярких спикеров стоит десяток работяг, благодаря которым подавляющее большинство участников дошло до конца практики. Благо Southbridge занимается поддержкой инфраструктуры, у нас каждый может помочь.


Слёрм-3 будет лучше, чем Слёрм-2


То, что на Слёрме-2 делалось стихийно, мы систематизируем и оптимизируем:
— закрепляем за каждым саппортом свою группу, чтобы студенты знали своего саппорта в лицо;
— пишем базу типовых ошибок и решений;
— готовим шорткаты «Если вы не справились с практикой, но хотите двигаться дальше»;
— готовим памятку участника с инструкцией по организации рабочего места и взаимодействию с саппортами.


Слёрм-3: запускаем кластер Kubernetes

Теги:мероприятиеслёрмkubernetes
Хабы: Блог компании Southbridge Системное администрирование Серверное администрирование DevOps Kubernetes
+11
3,4k 28
Комментировать
Похожие публикации
DevOps-инженер
от 100 000 до 180 000 ₽SouthbridgeМожно удаленно
Лучшие публикации за сутки