18 March 2014

«Memory Component Issue», или масштабный брак сетевого оборудования

CiscoNetwork technologies
Подтвердилось существование проблемы, о которой многие догадывались.

Cisco объявили, что неназванный производитель памяти в течение пяти лет (с 2005 по 2010) поставлял им брак. Характер брака: оборудование с этой памятью может годами копить аптайм, не вызывая никаких нареканий к своей работе, но стоит перезагрузить его (по питанию или даже простым reload) — память перестает корректно работать, само устройство либо не загружается, либо загружается и периодически падает. Связано это с деградацией чипов памяти. По заявлению вендора, основные проблемы начинаются после двух лет эксплуатации.

Прежде чем в Cisco полетят тухлые помидоры, спешу предупредить: память стандартная, многие вендоры ее закупали, потому затронуто может быть великое множество единиц оборудования. Есть подтверждение об аналогичных проблемах у Juniper. Но только Cisco сознались, несмотря на неизбежный репутационный ущерб. Их финансовые потери из-за этой катастрофы составляют около 655 миллионов долларов.

Усаживаемся, достаем валидол и смотрим список затронутого оборудования.

Конкретные партнамберы и детальное описание симптомов можно прочитать в Field Notices или сразу по ссылкам.



Повторюсь, в зоне риска оборудование, произведенное 5-10 лет назад и до сих пор прекрасно работавшее, и выход из строя происходит именно при перезагрузке любым способом, а не при штатной работе.

Замена стандартная, по RMA, железки целиком или планки памяти, как только сломается. Судя по всему, бракованная память стоит далеко не в 100% упомянутого выше оборудования, а даже если в вашей железке именно она стоит — она может умереть не от сегодняшней перезагрузки, а через 10 лет.

Проверить по серийникам, кто в опасности, нельзя. Никак. Я пытался.

Коллеги. Думаю, на этом этапе все поняли, что много раз виденный мной подход «я когда-то купил за бешеные деньги один маршрутизатор Cisco, он годами работал и еще много лет прослужит, резерв не нужен» криминален. И даже горячий резерв уже может не помочь. Представьте себе, что в ЦОДе моргнул свет, и всё ваше сетевое оборудование сломалось и требует замены от самого факта кратковременного обесточивания и перезагрузки. Даже простая плановая ночная перезагрузка незарезервированной железки может обернуться судорожным поиском замены и длительным даунтаймом. Оценивайте риски, оформляйте сервисные контракты с быстрой доставкой, заранее находите или закупайте память на замену, меняйте само железо на более новое. Исходите из того, что после очередной перезагрузки любая железка из списка выше (и не только) может не подняться, планируйте пути отступления.

Напоследок почтим минутой молчания одну из многих безвременно усопших плашек памяти, ранее верно служивших в составе 2811-х маршрутизаторов.
Скрытый текст
Tags:Мы все умрем
Hubs: Cisco Network technologies
+73
55k 77
Comments 73
Top of the last 24 hours