Pull to refresh
75.23
DataLine
Экосистема ИТ-сервисов

Невыдуманные истории про сеть: как я учил физику на своих и чужих ошибках

Reading time 7 min
Views 22K
Привет, Хабр! Меня зовут Антон Клочков, я сетевой архитектор в компании DataLine, а также участник проекта linkmeup. Я занимаюсь сетями более 10 лет и за это время успел поработать в больших и маленьких телеком-операторах, крупных корпорациях и небольших бизнесах. 

На практике я не раз убеждался, что физика упряма и обязательно отомстит за попытки пренебречь ее законами. За ошибки в физике сети я расплачивался квартальными премиями, исправлением косяков по ночам и «любовью» пользователей.  Зато такая школа жизни запоминается раз и навсегда.

Сегодня хочу поделиться подборкой историй про физику сетей и сформулировать правила сетевой жизни, которые вывел на практике. 



Дисклеймер: в статье собраны истории из моего опыта в больших и малых энтерпрайзах и операторах связи. Многие из них случились со мной или коллегами еще на заре карьеры. Большинство персонажей — собирательные образы, любые совпадения случайны. Мое мнение может не совпадать с мнением компании DataLine.

#1. Судьба энтерпрайза висит на патч-корде 


Обычный день, ничто не предвещает беды, если не считать Очень-Важное-Совещание топ-менеджеров компании. У технической службы последняя заявка на сегодня: нужно подключить нового пользователя.

Доблестная техподдержка бежит спокойно идет разбираться с подключением. Необходимо завести патч-корд в кросс и порт свитча, и рабочий день закончен! 

До важного совещания 15 минут.

Как назло, органайзер переполнен. Нужно освободить место и «перекоммутировать» некоторые провода. Расчищаем поляну, вставляем все обратно.

Одно неловкое движение — и тот самый очень важный патч-корд к конференц-системе оказался снаружи. Вот незадача, язычок коннектора был надорван или коннектор почему-то был уже сломан.

До важного совещания в той самой конференц-системе — 10 минут.

Недолго думая, воин техподдержки вставляет сломанный патч-корд обратно в коммутатор. В принципе все держится, все работает.

… На Очень-Важном-Совещании решается судьба энтерпрайза: будет ли у сотрудников годовая премия и прочие важные моменты.

Во время выступления Самого-Важного-Топ-Менеджера сломанный патч-корд предательски начинает движение и выпадает из разъема коммутатора. Главное событие года остается без связи.  

Какой была реакция участников, догадаться нетрудно. 


Правила патч-кордов: 

  • Всегда использую готовые патч-корды с защитой замка — и никакого самопала. Если язычок сломан, лучше не лениться и заменить патч-корд.


  • Если все-таки приходится использовать самопал как временное решение, использую качественный многожильный кабель (stranded или patch) и защитные колпачки. 
  • Не советую проводить работы, если намечается важная задача, где лучше ничего не трогать. В крайнем случае, нужно четко понимать, что вы делаете. Также есть известная примета, что работы в пятницу, особенно во второй половине дня, — к «веселым» выходным.

#2. «Обеднёнка»


Отдел закупок телеком-компании узнал про ценовые преимущества омеднённой витой пары из алюминия. Дешево и сердито, берем! Проводов уходит много, так что закупщики взяли большую партию, сэкономили бюджет компании и получили за это свой бонус. 

Прошло 9 месяцев. Сразу пачкой стали прилетать заявки: что-то линка нет, все флапает, растут ошибки CRC на портах. Где мой интернет и за что я плачу?

Закупщики не знали, что алюминий и медь образуют гальванопару. За 9 месяцев наша «омеднёнка» испытала немало температурных перепадов, и коннекторы окислились. Но это еще половина боли. Почти все сегменты витой пары были более 40 метров. Мало того, что коннекторы окисляются, так еще линк прыгает из-за большой длины «омеднёнки» .  

Поэтому два зимних месяца из трех монтажники разъезжали по точкам присутствия оператора связи и перекладывали линии, вместо того чтобы подключать новых клиентов. Переобжим коннекторов продолжался, пока не перешли на чистую медь. 


Правила витой пары: 

  • Нигде не использую «омеднёнку» (или «обеднёнку», как я ее называю). Основное преимущество — цена, и на этом все плюсы заканчиваются. 
    Если пустить питание по PoE, можно получить непредсказуемые эффекты, вплоть до выхода оборудования из строя. Как правило, «омеднёнка» — это двухпарка, поэтому скорости больше 100 мегабит не видать. Температура и влажность в шкафах бывает разной, контакты окисляются очень быстро, и линки падают на 10 мегабит.
  • Если хозяйство досталось в наследство, проверить витую пару очень просто. Если «омеднёнка» стальная — магнитом. Если алюминиевая — смотрим на торец разъема или достаем кабель из бухты и смотрим маркировку. 


#3. Мой друг «коротыш»


В любой инструкции по подключению есть пункт: убедиться в отсутствии напряжения в слаботочке. Администратор шел подключать нового пользователя, но услышал над ухом привычное «быстрее-быстрее» и подключился без проверки. 
 
Моргнул раз, и POE-панель выключилась. 

Моргнул второй, и половина офиса осталась без связи — через PoE-панель запитаны телефоны сотрудников. 

Моргнул третий, и все остались без приложений — по телефону подключались еще и компьютеры пользователей. 

В это время подключенный сотрудник озадаченно склонился над блоком питания.  Стоило включить компьютер, и можно было услышать звук старого-доброго dialup-модема, который издавал блок питания. Устройство сгорело не полностью и дало нам повод поностальгировать. 

Остальным сотрудникам повезло больше: у панели была защита от короткого замыкания. Достаточно было выключить и включить, и, о чудо, все заработало. ИТ-отдел отделался легким испугом.


Правило PoE: 

Перед подключением проверяю напряжение на патч-корде тестером с поддержкой PoE. Хорошим тоном считается проверять тестером вообще все каналы перед включением. Посмотреть на розетку и на порт коммутатора недостаточно. Пока вы идете к розетке с другой стороны, все может поменяться. 

#4. Модный* бизнес-центр 


Как-то раз наш офис переехал в новый бизнес-центр. Время шло, гигабита уже не хватало, LACP не тащил, нужно было переходить на сеть 10G. Начали поднимать.

Некоторые каналы поднимались на десятке сразу, некоторые не поднимались совсем. Один поднимался как-то странно: на портах было слишком много ошибок. Проект рисковал не завершиться в срок, и я начал копать. 

Маркировка на кабеле в БЦ отсутствовала. Пришлось забраться под самый потолок и найти кабели с маркировкой. Выяснилось, что подключение организовано так: с одной стороны идут многомодовые патч-корды, дальше одномодовое волокно, и на другой стороне — снова многомодовые патч-корды. 

Как мы знаем, одномод и многомод отличаются не только диаметром, но и длиной волны. Получилась такая ситуация: 



Представителям бизнес-центра пришлось признать ошибку и переварить все кабели. 


* то ли одномодный, то ли многомодный

Правила оптики: 

  • Не верю написанному на бумаге и проверяю все сам. Типы оптических кабелей проверяю обязательно, но правило касается не только оптики. 
  • Использую ВОЛС нужного класса OM (2-5) и не смешиваю разные OM. Иначе нужно быть готовым к работе на понижение.
  • Перед приемкой ВОЛС получаю результаты тестирования рефлектометра от специалистов, которые варили муфты и кросс.

#5. Еще про оптику и патч-корды


Чем отличается медь от оптики, всем сетевикам понятно. Одно из практических отличий — в экстренной ситуации медный патч-корд можно сделать самостоятельно. Да, мы против самопала, но для хотфикса или тестирования это делают быстро и непринужденно. Оптический патчкорд либо есть, либо нет, поэтому все держат запас на складе. 

Сломать оптический патч-корд довольно сложно, но однажды мне повезло: рука просто с мясом вырвала его из коннектора. На мое счастье, архитектура сети была отказоустойчивой, кабели в сервера шли с двух плечей, и сервер продолжил работать. Я отправился на склад и — сюрприз! — не обнаружил ни единого оптического патч-корда.  

Спокойно сел за компьютер и вбил патч-корд нужной длины. И тут выяснилось, что в огромном Санкт-Петербурге купить его сегодня практически негде.

Тем временем я заметил сбой на устройстве, которое обеспечивает отказоустойчивость серверов. Один из портов вывалился, и получился шахматный порядок: один сервер недоступен с первого юнита, второй сервер недоступен со второго. 

Поиски кабеля продолжились в менее спокойном темпе. Нашлось только одно (Карл!) место, где забрать патч-корд можно СЕГОДНЯ! Пришлось включить режим RUN AS ADMINISTRATOR.


Правило запасных принадлежностей: 

Всегда держу запас оптических патч-кордов. Это не медь, быстро обжать времянку не получится.

#6. Бродкастовый шторм и телефоны


Запускали в пилоте одну железку. Там, где она крутилась, сеть находилась в одном-единственном первом влане. Не сказать, что система мониторинга отсутствовала как класс, были какие-то зачатки. Но так исторически сложилось, что она не видела, когда сеть заваливает бродкастовым трафиком. 

Именно это и произошло. Не без помощи кривых рук администратора устройство собрало на себе петлю, и все выходные молотил бродкастовый  шторм. 

После этого в прямом смысле сгорело 18 телефонов Avaya: CPU оплавились.   Естественно, это большая дыра в бюджете. Повезло, что не сгорела телефонная станция,
иначе меняй работу. 

Часть пользователей в это время работали. Они не заметили неудобств, потому что работали на старых телефонах с обычной коммутацией каналов. Ну разве что все выходные «сетка подтормаживала» и отчеты с десятого раза отправлялись.

Казалось бы, при чем тут физика? Сгорели аппараты физически, из-за физически подключенного кабеля в прод, где шаловливые ручонки собрали петлю.


Правила настройки оборудования:

  • Слежу, чтобы мониторинг был всегда.
  • Правильно настраиваю storm control на BMU traffic.
  • Если у вас до сих пор есть STP*, его тоже нужно настраивать.
  • Оборудование должно быть управляемым.
  • Если эксперименты на проде неизбежны, проверяю что изменилось во время и после эксперимента, а не просто ухожу домой. 

#7. Поиски утраченного линка


Когда я работал в маленьком интернет-провайдере, на чердаке одного дома был ящик. Ящик служил центром агрегации всех оптических соединений. Открывать его было опасно само по себе: можно обломать патч-корды, идущие в кроссы. Но, вдобавок ко всему, эту стойку не оборудовали органайзерами. По воспоминаниям, это было вот так:


 
Попытки разобраться в ящике работали как не до конца оттестированный медикамент: в одном месте лечишь, в другом калечишь. Создать аварию можно было на ровном месте. Однажды я хотел переставить из порта номер 2 в номер 3, что в итоге привело к отказу целого региона. Но это уже совсем другая история.


Правила стоек и кроссов: 

  • Всегда использую органайзеры или угловые панели. Понятно, это стоит денег, но потом будет проще разобраться, что к чему. 
  • Маркирую стойки, панели, кабель, патчи, даже всю активку. 
  • Использую стяжки и липучки при укладывании и закреплении кабелей для удобного доступа к оборудованию и лучшей вентиляции в стойке. Для оптики использую ТОЛЬКО липучки.
  • Стойки выбираю под задачу, но если количество оборудования нельзя спланировать заранее, беру высокий шкаф на 42U.
  • Обязательная земля в каждом шкафу и правильный монтаж коннекторов экранированной витой пары.

В идеале стремлюсь вот к этому:



Это далеко не все истории из жизни сетевика. Буду рад, если поделитесь своими. Какие истории помогли вам не повторять популярных ошибок?
Tags:
Hubs:
+56
Comments 64
Comments Comments 64

Articles

Information

Website
dtln.ru
Registered
Founded
Employees
201–500 employees
Location
Россия