31 июля

Байки из дежурного склепа

IT-инфраструктураЧитальный зал
Предварительное уведомление: пост этот сугубо пятничный, и больше развлекательный, чем технический. Вас ждут весёлые истории об инженерных факапах, байки с тёмной стороны работы сотового оператора и прочий легкомысленный шорох. Если я где-то что-то приукрашу — то только для пользы жанра, а если навру — так всё это дела дней настолько минувших, что никому от того вреда не будет. Но если цепанёте глазом техническую или ещё какую лажу — поправляйте меня нещадно, я всегда был на стороне справедливости.

Внимание, начинаю без разгона!

Backdoor во двор


В нашей дежурке на первом этаже были большие такие окна, от цоколя и чуть ли не до потолка. Выходили они на служебную парковку, откуда по утрам разъезжались всякие измерители и прочие полевые сотрудники. Парковка же находилась в достаточном удалении от парадного и всех служебных входов, да ещё за двумя шлагбаумами.

Как-то утром к зданию подъезжают тогда ещё милицейские машинки, на всех проходных встают милиционеры и проводят досмотр всех уходящих. В служебную рассылку прилетает алерт: внезапно (действительно внезапно, не как обычно) нагрянула проверка на лицензионность софта, будут досматривать рабочие станции. У кого что на компах есть пиратского — надо сносить вотпрямща!

Безусловно, всё, что касается операционных систем, офисного и служебного софта — то большей частью было лицензированное. Но не всё, не всегда и не везде; а уж что себе сотрудники наставили на служебные ноутбуки — история совсем тёмная. Я ринулся проверять машины в своей зоне ответственности на пиратщину, что-то по быстрому снося…

… А в это время в дежурку торопливым и нервным шагом начинают входить инженеры, с ноутами и системниками в объятьях. Входят они через дверь, а выходят, похихикивая от абсурдности ситуации, через окно: все проходные перекрыли, а вот о таком бекдоре демоны правопорядка не додумались. Так, пока шла проверка бухгалтерии (где всё было образцово-показательно), сотрудники и вытащили всё палево.

Прошлое — там


Если вы заинтересовались и не закрыли вкладку — вот вам некоторая экспозиция происходящего во времени, пространстве и лицах. Я — прекрасно юный, зелёный, как лист щавеля, выпускник-айтишник, устроившийся работать в инженерную дежурку самарского «Мегафона» (который тогда был ещё и вовсе «МСС Поволжье»). Для меня это было первое настоящее соприкосновение с Техникой с большой буквы и Технарями с ещё более большой: будучи самым младшим чертёнком в этой адской кухне, я с восторгом наблюдал за работой многоопытных чертей инженеров, безуспешно пытаясь постичь их мудрость. Пока та мудрость не всочилась в мозговые поры, я мог только пыриться в кучу разномастных мониторингов, волнуясь каждый раз, когда там появлялось «красненькое».



Если кто-то из упомянутых тут персонажей себя вдруг узнает — привет вам!

Работает — не трогай (но трогай, если не работает)


Одним из упомянутых выше сверхтехнарей был Миша Басов. За годы работы в «Меге» я о нём слышал много хорошего и интересного в том духе, что он стоял чуть ли не у истоков и запустил кучу процессов. Мне с ним пообщаться как следует не удалось: познакомились буквально в отделе кадров, когда я принёс документы, а он забирал.

Одна из систем мониторинга, с которой мы работали, была написана Мишей. Я уже не очень помню, что там мониторилось, но знаю, что Миша написал временное решение, которое быстро стало постоянным. Да и хорошо: многое из того, что истинные технари делают для собственных нужд на скорую руку, получается просто прекрасно. Тот мониторинг тоже всех устраивал, работая без всякой поддержки и обслуживания, правда, никто не знал, как.

Через пару лет после Мишиного увольнения мониторинг стал показывать пустую страницу.
Я сразу забил в набат. Старший смены забил в набат. Начальник сектора забил в набат.

Начальник отдела забил в набат. Начальник службы забил в набат. Начальник департамента звякнул бубенцами. Звон услышал IT-директор всея Поволжья, тут же собрав совещание. Туда он позвал начальника департамента. Тот рявкнул на начальника службы. Тот, не понимая сути проблемы, позвал начальника отдела. Этот, не врубаясь в произошедшее, позвал начальника сектора, который вызвал начальника смены. Ну, а тот перевёл стрелку на меня.

Как-то подменившись с дежурства, я отправился на это совещание. Сказано было много слов, был призван ответственный за мониторинги (ничего внятного мы не услышали), было вспомнено, что мониторинг писал Басов, что мониторинг очень важный, но что никто не понимает и не знает, как он работает… Всё свелось к тому, что нерабочую и непонятную систему надо убирать, а вместо этого внедрять проверенное решение от проверенного вендора.
Пока это всё говорилось, я выпросил у кого-то ноутбук и ssh-доступ на тот сервер. Мне было интересно посмотреть, что же за суперкрутую систему написал легендарный Басов.

Захожу, первым делом по привычке набираю:

df -h

Команда отвечает мне что-то вроде:

Filesystem      Size  Used Avail Use% Mounted on
/var            10G   10G  0G    100% /

Чищу переполнившийся за годы /var/log, обновляю мониторинг — всё работает. Починил!
Совещание останавливается, комкается, все расходятся. По пути начальник отдела радуется и обещает мне премию!..

… Вместо премии я получил потом ментальный втык за то, что нечаянно обломил откат на заказ системы мониторинга от проверенного вендора.

Где домики живут


Одной из обязанностей дежурных инженеров был контроль электронных ключей доступа в машинные залы. Сами залы меня тогда очень впечатляли: ряды стоек, забитых серверным и коммутационным оборудованием, линии оптоволокна и кросс-кабелей (где-то — идеально уложенные, где-то — превратившиеся в невероятный комок спагетти), постоянный гул кондиционеров и фальш-полы, под которыми было так удобно охлаждать напитки… Входы в залы закупоривались тяжеленными гермодверями, призванными обеспечить автоматическую блокировку при пожаре. Вход и выход строго протоколировался под роспись, чтобы было известно, кто и зачем сейчас внутри.

Больше всего в этих залах мне нравились, конечно, серверные шкафы «супердомиков» — два HP SuperDome 9000, обеспечивавших работу биллинга. Две идентичных ноды, одна всегда была боевой, а вторая — синхронным горячим резервом. Различие меж ними было только в IP-адресах, один был x.x.x.45, другой — x.x.x.46. Оба этих айпишника знали все инженеры, потому что если что-то на биллинге случилось — первым делом смотришь, видны ли супердомики. Невидность супердомиков — ахтунг.

Как-то утром подобный ахтунг случается. В течение двух секунд на обоих серверах исчезают все службы, биллинг схлопывается в ничто. Быстро проверяем сервера — пингуются, но на них реально ничего нет!

Не успеваем мы даже начать положенный комплекс мероприятий, как слышим громогласный ор "УБЬЮ, СТУДЕНТ!"; в дежурку вбегает архиадмин всея серваков, срывает с полки электронный ключ от машзала и бежит туда.

Очень быстро после этого мониторинг приходит в норму.

Случилось вот что: новый сотрудник подрядной организации, конфигурировавший пачку новых виртуалок, ручками прописал им последовательные статические айпишники, от x.x.x.1 до x.x.x.100. «Студент» не знал о священных неприкасаемых адресах, а старожилам и в голову не приходило, что кто-то мог на них так покуситься.

Услуга «Антиспам»


Ух, ночные дежурства! Любил их и ненавидел, потому что это было 50/50: либо плановые работы на оборудовании, где ты принимаешь активное участие, сонными мозгами и дрожащими руками помогая инженеру, либо тишина со спокойствием. Абоненты спят, оборудование работает, ничего не ломается, дежурный расслаблен.


Дежурство идёт по плану.

Как-то раз такое полночное спокойствие нарушает звонок на служебный телефон: здравствуйте, это из Сбербанка беспокоят, у нас перестала работать ваша симка, с которой оповещения наши рассылаются.

Дело ведь давно было, ещё до внедрения IP-подключений к СМС-шлюзу. Поэтому, чтобы Сбер мог отослать смску со своего знаменитого номера 900, они брали предоставленную симку (скорее всего — даже не одну), втыкали в GSM-модем, да так и работали.

Окей, проблему принял и начал копать. Первым делом проверяю состояние симки в биллинге, та заблокирована. Что за чёрт — рядом красная надпись «НЕ БЛОКИРОВАТЬ» и ссылка на приказ генерального архидемона. Ух, прямо интересно.

Проверяю причину блокировки, делаю брови домиком и путешествую в соседний кабинет, где пялится в мониторчик девочка из фрод-отдела.

«Леночка, — говорю я ей, — ты зачем Сбербанк заблокировала?»

Та в непонятках: мол пришла жалоба, что с номера 900 идёт спам. Ну я и заблочила, утром бы разобрались.

А вы говорите — абонентские жалобы игнорируются!

Симку обратно включили, конечно.

Очень страшная история


Когда я только устроился на работу, мне и другим новичкам провели что-то вроде ознакомительной экскурсии. Показали оборудование: сервера, кондеи, инверторы, пожаротушение. Показали базовую станцию, стоявшую в одном из машзалов для опытов, пояснив, что хотя передатчики включаются на минимальной мощности, лучше за экранированную дверь в это время не входить. Пояснили за устройство мобильной сети, про питание основное и резервное, про отказоустойчивость и про то, что сеть спроектирована так, чтобы работать даже после атомной бомбардировки. Не знаю, для красного словца это было сказано, или правда, но в голове это отложилось.

И действительно: какой бы ахтунг иногда не творился локально, поволжская голосовая сеть работала всегда беспрерывно. Я не связист, но в курсе, что оборудование (и базовые станции, и клиентские терминалы) рассчитано на максимальную выживаемость «голоса». Отключилось питание на БС? Она снизит мощность, перейдёт на ДГУ/аккумуляторы, отключит передачу пакетного трафика, но голос будет идти. Порезали кабель? База перейдёт на радиоканал, которого для голоса хватит. Телефон потерял БС? Он увеличит мощность и будет щупать эфир, пока не зацепится за вышку (или пока не высадит батарею). И т.д., и т.п.

Но однажды в офисе мигнул свет, а на улице затарахтели дизель-генераторы. Все ринулись перепроверять свои железки: по IT-части ничего критичного не случилось, а вот с мониторинга БС раздалось озадаченное «опаньке». И потом: «парни, у нас ВСЕ базы легли, проверьте связь».
Достаём мобильники — нет сигнала.

Пробуем IP-телефонию — на мобильную связь выхода нет.

Сети нет. Вообще. Нигде.

Вспомнив слова про атомную бомбардировку, я подсознательно несколько секунд ждал, пока до нас докатится ударная волна — другой причины пропадания сети почему-то в голову не пришло. Было страшно и любопытно одновременно: я как-то понимал, что сделать один хрен ничего не успею. Остальные ребята тоже оторопели, никто ничего понять не мог.

Взрывной волны не было. После пятисекундного шока рванулись к имеющемуся на такой вот случай телефону проводной городской сети, принявшись обзванивать региональные офисы. Городская сеть, к счастью, работала, но в регионах подтверждали: вся Самара «мёртвая», ни железки не пингуются, ни дозвон не идёт.

Через пять минут кто-то из энергетиков принёс новость: бахнуло где-то на электростанции, обесточило минимум всю Самару, возможно — и область. Выдохнули; а когда произошло переключение на резервные мощности — то даже и вдохнули.

Ещё одна страшная (но немного глупая) история


Самый большой факап на моей памяти произошёл во время очередной прямой линии с ныне обнулённым. Тогда как раз вводили фишку с отправкой вопросов смсками, поэтому к всплеску нагрузки на сеть подготовились заранее: всё перепроверили и подготовили, и за целую неделю до дня X запретили любые работы, кроме аварийных. Подобный протокол задействуется в любых случаях, когда ожидается повышенная нагрузка, например — в праздники. И для дежурных инженеров оно всё равно, что выходной, потому что когда оборудование не трогают, с ним ничего произойти не может, а если даже произойдёт — все спецы на всякий случай заранее сидят в офисе.

В общем, сидим, слушаем национального лидера, ни о чём не беспокоимся.

Со стороны коммутаторщиков доносится негромкое «Е***ть».

Смотрю к себе — действительно «е***ь»: отвалилась кампусная сеть.

Через секунду умирает вообще всё (тогда ещё не было мемасика про Наташу и котов, а он бы пригодился). Пропадает пользовательский сегмент сети, пропадает технологический. С возрастающим ужасом пытаемся проверить, что осталось в рабочем состоянии, а проверив, тянемся к шкафчику за спрятанной бутылкой лечебного коньяка: остались только голосовые вызовы (я ж говорил, они живучи!), всё остальное — сдохло. Нет интернета — ни абонентского GPRS, ни на оптике, которая отводится нескольким субпровайдерам. Не отправляются СМС. Жопа! Обзваниваем регионы — у них сеть есть, но Самару они не видят.

В течение получаса конец света стал почти материально ощутимым. Десять миллионов человек, у которых внезапно всё сломалось и которые не могут дозвониться в колл-центр, потому что в колл-центре голосовые терминалы работают через VOIP.

И это во время выступления всетемнейшего правителя! Очередная победа госдепа и Обамы лично!

Дежурившие технари подорвались с низкого старта и отработали очень чётко: в течении часа сеть ожила.

Такой залёт — это не областной, и даже не региональный уровень, о таком положено рапортовать в Москву со всеми подробностями и выдачей виновных. Поэтому тем, кто принимал участие в расследовании, запретили рассказывать правду под страхом увольнения, а для ГО сочинили отчёт, полный воды и тумана, по нему как-то получалось, что «оно само, никто не виноват».

Что было на самом деле: у одного из начальников ехали сроки внедрений и обламывались премии за них. И начальнику начальника обламывались, и так далее; поэтому надавили на одного из новых инженеров, велев ему провести требуемые сетевые включения «пока всё тихо». Инженер не осмелился возражать, или хотя бы потребовать письменный приказ: это была его первая ошибка. Вторая — он ошибся при удалённой конфигурации циски, достигнув рекордных результатов по факапу в кратчайшие сроки.

Насколько известно мне — наказали никого.

Праздник к нам приходит


Праздники, как я уже упоминал, были для нас всегда особенными днями. В такие дни резко растёт нагрузка на сеть, количество поздравительных звонков и СМС зашкаливает. Не знаю, как сейчас, с развитием интернет-общения, а тогда в один только Новый год опсосы снимали очень существенную пенку на поздравительных звонках.

Поэтому в новогоднюю ночь в офисе обязательно дежурили инженеры всех подразделений (а вне офиса — бригады, готовые щемиться сквозь сугробы на устранение аварии на базовой станции в деревне малые дрищи). Биллингисты, админы железячные, сантехники по софту, сетевики, коммутёры, сервисники, саппорт подрядчиков — каждой твари по твари. И если позволяли условия, то они тусовались у нас же в дежурке, наблюдая на наших устройствах мониторинга за всплесками трафика, идущего вслед за часовыми поясами по всему Поволжью.

Три или четыре раза за ночь мы встречали Новый год, правда, в этом было не столько праздничности, сколько нервного ожидания: выдержит ли оборудование сверхнагрузку, не порвётся ли какое-то звено сложной технической цепочки…



Особенно нервничал Саша, отвечавший за биллинг. Он, в принципе, всегда выглядел так, будто вся его жизнь проходит на оголённом нерве, ведь ему приходилось разгребать всё добро, творящееся с биллингом, отвечать за все косяки, его чаще других будили по ночам; в общем, я не представляю, как и почему он работал там, где работал. Может, ему денег много платили, или семью держали в заложниках. Но в ту ночь у меня вообще было ощущение, что если по Саше щёлкнуть ногтем, то от скопившегося в нём внутреннего напряжения он рассыпется в пыль. На такой неприятный случай у нас есть веник, а пока же — работаем работу, облизываясь на ждущий своей очереди коньяк.

Час за часом прошли все всплески нагрузки, все принялись перепроверять свои системы. Коммутёр бледнеет: на одном из региональных коммутаторов пропал весь биллинговый трафик. А это — данные о всех вызовах, прошедших через коммутатор; они пишутся в файлик, который чанками по FTP (кондово, но надёжно) выкачивается на BRT для тарификации.

Коммутёр, представив, какого объёма скипидарную клизму ему поставят за потерю части новогодней выручки по целому региону, аж задрожал. Повернувшись к Саше, он обратился к сиятельному господину биллингисту полным волнительной надежды голосом: «Саша, посмотри пожалуйста, может BRT успел выкачать тарификацию? А, ну посмотри, пожалуйста!».

Саша пригубил коньяку, закусил его икорным бутербродом, не спеша прожевал и, закатывая глаза от удовольствия, обусловленного тем, что косяк не у него, ответствовал: «Я уже проверил, файлов нету...».

(Мой чудесный корректор спросила о том, что же потом стало с бедным коммутёром. О, судьба его была ужасна: его приговорили к неделе дежурств на первой линии поддержки колл-центра, запретив материться. Бр-р-р!)

Киньте камень, кто безгрешен


По этим историям может сложиться впечатление, что ни я лично, ни другие дежурные не факапили. Ничего подобного, факапили, но как-то без интересного эпика и последствий. Работа считалась подходящей вчерашним студентам без мозгов и опыта, взять с такого сотрудника нечего, выгнать за косяк — так новый не факт, что умнее будет. А вот сваливание на «дежурку» своих косяков было у инженеров отдельной спортивной дисциплиной: проморгали, не разобрались, не вовремя уведомили, вот их и наказывайте. «Дежурка» же в совершенстве освоила науку отмазываться, получалось далеко не всегда, но все всё понимали. Поэтому прилетало — но, как правило, без серьёзных последствий.


Разбираем очередной «залёт» на пересменке.

За несколько лет работы там я могу вспомнить три случая, когда из отдела кого-то увольняли.
Однажды инженер в ночную смену решил жахнуть пивка, а тут в дежурку возьми и зайди технический директор. Он иногда мог вот так зайти по-простому поздороваться (вроде как сам с дежурных начинал). Спалил парня с банкой пива, щёлк на телефон, увольнение. Больше пива по ночам не пили.

Другой раз дежурный коммутаторщик какую-то сильно страшную аварию проморгал. Подробностей уже не помню.

И третий раз — уже под конец моей работы там. Условия труда очень сильно просели, была дикая текучка и страшные переработки. Люди работали иногда сутки, потом шли поспать 12 часов и снова выходили на суточное дежурство. Я и сам так работал, пока позволяло здоровье и это оплачивалось; потом переработки оплачивать фактически перестали (стандартно обещали компенсацию отгулами, когда будет возможность — но все понимали, что никто никогда гулять не пойдёт), а на дежурства выгоняли чуть ли не угрозами. У одного инженера не выдержала кукушечка, он посреди смены встал с рабочего места и ушёл домой навсегда, по пути заглянув в кабинет начальника службы, и послав того на три буквы. Помню рассылку почтовую, в которой этого инженера постфактум клеймили фашистом и предателем, в каждой строчке читалось, как у начальства пригорело от такого поступка.

Касаемо моих персональных факапов — один случай своей необычностью запомнился. Опять же, ночное дежурство, всё тихо, ничего не происходит. На пересменке проверяем мониторинг: упс, ночью упала обработка данных с коммутаторов, хорошо так и давно горит красная лампочка. Я всю ночь смотрел на этот сигнал — и не воспринимал его что ли. При всём том, что это был один из самых очевидных и наглядных мониторингов, я до сих пор не понимаю, почему не видел.
Тут никаких отмазок было не налепить, косяк чистый и стопроцентный, авария пятой категории и вполне вероятное увольнение. Меня после двенадцати часов ночного дежурства до обеда мурыжили, заставляя писать объяснительные. Поскольку в правду никто бы не поверил, пришлось придумать какой-то лепет, что я из-за травмы пережрал обезболивающего и уснул. Начальник службы орал на меня в своём кабинете, в общем, всё шло к увольнению — но вылилось в выговор с депремированием. Премий к тем временам в Меге не видели уже несколько лет, так что ущерба никакого я не понёс.

Вспоминая эпизод с приходом техдира: однажды как-то ночью в дежурку забился какой-то жлоб и начал орать, что мы сидим незапертые (дежурка не должна быть заперта в принципе), что мы тут олени, и что к утру от всех нас он ждёт объяснительные про все наши косяки. Этим жлобом был начальник службы безопасности, и от него РАЗИЛО. Прооравшись, начбез свалил во тьму, а утром мы спросили своего начальника — мол, что делать-то? «Да н***й его шлите» — ответил тот, и на этом инцидент был исчерпан.

Как я сломал отдел


В те дни башорг (тогда ещё bash.org.ru, а не то, что там сейчас где) был ресурсом культовым. Цитаты там появлялись чуть ли не по паре в месяц, и иметь СВОЮ! ЦИТАТУ!!! НА БАШЕ!!! было столь же круто, как, скажем, свой домен второго уровня году в двухтысячном. Тот башорг был как-то больше айтишно-анимешный, хотя смешным он был для всех.

Каждое рабочее утро самого младшего инженеришки (то есть моё) начиналось с чтения башорга — тридцать секунд смеха перед двенадцатью часами страдания.

Однажды коллега спросил меня, над чем это я хихикаю. Я показал ему, над чем. Он разослал ссылку по отделу.

Работа встала на пару дней: к моему удивлению никто из коллег про баш до того момента не знал. В дежурке стоял хохот: «Ах-хаха-хаха, пропатчить KDE, ахаха-хаха!». «Игого-го-го, топить ломы в ртути, бгегегег!». Рабочий день был потерян, с другой стороны — жизнь тогда продлили себе знатно.

Бонус для дочитавших


Помните, в бородатые времена был такой популярный анекдот «Вижу в Нортоне два диска C, думаю — зачем мне два? Ну и стёр один!». Он очень напоминает одну из моих любимых историй, которую рассказываю не я, но мне. И каждый раз смешно, как в первый:

18+, но из песни слов не выкинешь

Постскриптум


Эти истории — обработанная компиляция некоторых постов моего ТГ-канала. Иногда там проскакивает подобная дичь; я ни на что не намекаю, но ссылочку всё же оставлю.

Всем хорошей бесфакапной пятницы!
Теги:прошлое тамбайкимегафонфакапывоспоминанияпятничный пост
Хабы: IT-инфраструктура Читальный зал
+75
18,8k 37
Комментарии 42
Похожие публикации
IT-Recruiter
22 декабря 202040 000 ₽OTUS
Product Manager IT-проектов
17 января 202160 000 ₽OTUS
Профессия iOS-разработчик
30 ноября 202075 000 ₽SkillFactory
Основы HTML и CSS
30 ноября 2020БесплатноНетология
Курс по аналитике данных
30 ноября 202053 500 ₽SkillFactory
Лучшие публикации за сутки