STSS corporate blog
IT systems testing
IT Standards
December 2015 9

Отечественный производитель серверов = самосбор?

С давних пор ведётся «холивар» на тему как называть российские компании, которые занимаются сборкой компьютерного и серверного оборудования — производителями или «самосборщиками»? Одни считают, что если сервер или ПК собран на конвейерном или стапельном производстве, прошёл тестирование и имеет гарантию на готовое изделие, а не на отдельные компоненты от производителя комплектующих — то такую компанию можно смело называть производителем. Другие, напротив, считают производителями только те компании, которые паяют платы, а все остальные — просто самосбор.
Если углубиться в вопрос и рассмотреть примеры мировых брендов, то эта грань окажется не такой явной, как кажется на первый взгляд. Мало кто из мировых производителей серверного оборудования самостоятельно выполняет полный цикл производства. В основном, это ограничивается разработкой дизайна и/или использованием ресурсов ODM-производителей — Foxconn, Quanta, Mitac, Chenbro, Supermicro и прочих.
На данный момент прочно закрепились олигополии практически во всех сферах производства компьютерных и серверных комплектующих. Производителям серверного оборудования бессмысленно и экономически не выгодно изобретать «велосипед заново».


Рассмотрим на примерах содержимое серверов некоторых общепризнанных брендов. Что мы видим: корпус Huawei — или всё таки Supermicro? RAID-контроллер Lenovo/IBM — или может быть LSI/Avago? Диски HP — или Seagate? И память ставится не HP, а Hynix или Samsung.


Диск HP с парт-номером Seagate


Диск HP с парт-номером Hitachi


Так выглядит оперативная память многих производителей серверов: на ней оригинальные стикеры Hynix, Kingston, Samsung

Материнские платы хоть и выполняются по уникальному дизайну, но паяются на производствах всё тех же Foxconn, MiTAC и прочих ODM.
Понятное дело, что изменения, внесённые в оригинальные продукты, существенны — это может быть и разработка уникального дизайна, и написание собственного BIOS. Но иногда — это банальное переклеивание стикеров, с соответствующей программно-аппаратной валидацией.
Также остаётся вопрос фактической сборки — многие импортные бренды поставляются в Россию в разобранном виде (или разбираются здесь дистрибуторами). В итоге, сборка производится всё равно здесь, у нас, в России — силами дистрибуторов, интеграторов или конечного пользователя. Не смотря на это — некоторые серверы продаются как готовые изделия, произведенные на оригинальных сборочных производствах, однако такие системы почти всегда имеют большой срок поставки, от 8-12 недель, и даже больше.

Основными особенностями брендового сервера являются:
1. Обеспечение максимальной совместимости и стабильности работы всех компонентов системы — отчасти это достигается использованием оптимизированных прошивок и драйверов.
2. Комплекс услуг, который потребитель получает вместе с сервером, и который сопровождает его во время эксплуатации. Этот комплекс включает: оптимизацию конфигурации, технический пресейл, сборку и тестирование, технические консультации и гарантийный сервис.

Что есть отечественный производитель серверного оборудования?


В последнее время сборкой серверов занимаются все кому не лень. Даже некоторые дистрибуторы комплектующих, нарушая структуру взаимодействия с партнёрами, уже перестали стесняться продавать напрямую конечникам оборудование собственной сборки.
Сборкой сейчас никого не удивишь. Собирают везде: от радио-рынков и интернет-магазинов, до реселлеров и интеграторов.
Но есть и специализированные компании. На сегодняшний день на отечественном рынке работает несколько таких производителей и интеграторов, выпускающих серверное оборудование под своей торговой маркой.
Компания STSS одна из тех, кто производит собственный продукт, и на нашем примере я хочу продемонстрировать, чем мы отличаемся от большинства компаний, предлагающих наряду с продажей комплектующих услуги по сборке.
Для этого я собираюсь описать функциональные подразделения компании, само по себе наличие и уровень компетенции которых отличают ответственного производителя от самосборщика.

Лаборатория


В задачи лаборатории входит подготовка новой модели сервера к серийному производству. Когда речь идет о готовых платформах (Intel, Supermicro, Asus, Tyan), трудностей меньше, т.к. основные компоненты, такие как корпус с бэкплейнами и дисковыми корзинами, блоки питания, материнская плата и вентиляторы охлаждения, уже входят в состав платформы и совместимы между собой. Но если необходимо создать типовую модель с обширным конфигуратором — полная проверка и подготовка превращаются в длительный и кропотливый процесс. Сюда входит ряд основных мероприятий, в процессе которых инженеры сталкиваются с проблемами, многие из которых никогда не возникают в процессе обычной эксплуатации:

1. Проверка механической совместимости компонентов. Выявление несовместимости по габаритным размерам или длине кабелей.
На этом этапе иногда возникают, например, такие проблемы:
— В корпусе нет надлежащего места для установки и надежного крепления батарейки RAID-контроллера (вариант на изоленту куда-нибудь не рассматривается)
— Конструктив задней панели корпуса не позволяет прикрутить разъем видеокабеля (мелочь, но случается)
— Видеокарта перекрывает слоты, разъемы или упирается в компоненты материнской платы
— Проводка двойного блока питания упирается в вентилятор корзины с горячей заменой дисков
— Недостаточная длина кабелей питания, причём длины фактически может хватать, но при правильной укладке кабелей может возникнуть натяжение. По технологии сборки не рекомендуется прокладывать кабель на пути воздушных потоков, снижая тем самым эффективность охлаждения, но и допускать натяжение и излом разъема тоже нельзя. При данном ограничении инженер подбирает подходящий БП, либо формирует технические требования к длине кабелей для заказа партии у производителя блоков питания.

2. Проверка программной совместимости. Взаимодействие с производителем комплектующих, подготовка прошивок, тестирование совместимости на программно-аппаратном уровне.
Примеры проблем на данном этапе:
Так например карты Matrox Mura MPX не запускались на раннем BIOS плат Supermicro серии X9. Были случаи конфликтов SSD Intel с RAID-контроллером Intel, а один раз видеокарта Asus отказалась стартовать на материнке Asus, причём по отдельности они работали прекрасно. Несовместимость версий BIOS и драйверов — одна из самых распространённых проблем. Порой приходится подбирать стабильно работающую конфигурацию откатывая и обновляя прошивки, драйверы, меняя настройки по нескольку раз или просить производителя пофиксить проблему и предоставить допиленную версию BIOS или драйвера.

3. Проверка электрической совместимости. На этом этапе выявляется способность всех линий блока питания обеспечить необходимую мощность всех подключенных устройств при максимальной нагрузке.
Пример ограничения по линиям:
Были случаи, когда одна из 12V-линий не могла вытянуть первый запуск дисков в корзине с горячей заменой, подключенной к интегрированному SATA-контроллеру. Дискретные контроллеры умеют запускать диски с задержкой, чтобы обеспечить плавный рост нагрузки, а интегрированный стартует все сразу. В результате линия падала, притом что суммарная загрузка блока питания не превышала 40%

Пример электромагнитной несовместимости
В технологической карте одного из собираемых изделий допускалась укладка кабелей питания и сигнальных кабелей SATA в одном жгуте. Однако на очередном экземпляре нагрузочное тестирование показало нестабильную работу конкретной модели жесткого диска. Проблема проявлялась крайне редко и только под длительной 100%-нагрузкой дисковой подсистемы. В процессе поиска неисправности было установлено, что разнесение кабелей питания и SATA приводит к исчезновению ошибок. Повторюсь, проблема проявлялась только при многочасовой 100%-нагрузке дисковой подсистемы, что даже у сервера случается нечасто.

4. Проверка термопакета. Перегрев дискретного контроллера и видеокарты — распространённая проблема при тестировании терморежима, особенно в компактных корпусах. Тестирование проводится при максимальной нагрузке в тестовой зоне с температурой 35 градусов Цельсия. Перегрев компонента хоть на 1 градус выше максимально допустимого значения ставит крест на запуске в серийное производство. В реальности, проблемой считается даже та конфигурация, у которой температурные режимы приближаются к максимально допустимым значениям менее чем на 10 градусов. И это не смотря на то, что заказчик, вероятно, никогда не сможет создать подобные условия у себя в серверной при выполнении реальных задач. Проблемы с охлаждением зачастую возникают как из-за недостаточного, так и из-за несбалансированного продува.
Пример:
Был случай, когда в 2U-корпусе перегревался процессор с мощным активным кулером только из-за того, что системе охлаждения корпуса не хватало тяги на выдув. Кулер процессора молотил горячий воздух внутри корпуса, и всего лишь один маленький 40мм-вентилятор на заднюю панель сервера снизил температуру процессора на 15 градусов.
В функционал лаборатории входит не только фиксация явных несовместимостей, но и выявление плавающих проблем с поиском решений. Подобный комплекс проверок весьма ресурсоёмок и трудозатратен, но является обязательным этапом, что позволяет на выходе получить очень высокий уровень стабильности работы конечного продукта. Результатом подготовки модели к серийному запуску является передача на производство всех необходимых прошивок, драйверов и полной пошаговой технологической карты сборки и настройки сервера.
Все найденные особенности совместимости или неработоспособности заносятся в специальную базу знаний, содержащую описание проблемы, возможные пути решения, ноу-хау, и другую важную информацию. Эта база – результат постоянной многолетней работы команды инженеров, и является интеллектуальной собственностью компании.
Пример типовых записей из рабочего журнала инженера лаборатории (по понятным причинам, я не могу раскрыть текст полностью):






Входной контроль


Эта внутренняя процедура проверки поступающих на склад комплектующих, позволяет исключить попадание брака на производство. В результате нам удаётся выдержать фактический срок производства сервера на уровне 3-5 дней для стандартных моделей, при заявленном сроке в 7-10 дней. Тесты упрощённые, не нагрузочные и отсеивают компоненты с явным браком.

Производство


Сборка серверного оборудования и СХД производится на стапелях опытными инженерами в строгом соответствии технологической карте. Производится установка и прошивка компонентов, инициализация RAID-массивов. Установка ОС и настройка драйверов производится в технологической сети в автоматизированном режиме.

Производство сервера на базе отечественной серверной платформы E-Class от компании «Т-Платформы» (Скорость записи x5)


Производство сервера на базе компонентов Supermicro (Скорость записи x10)


Перед отправкой сервера на тесты, инженер отдела контроля качества производит оценку изделия по следующим критериям:

1. Соответствие комплектации.
2. Наличие внешних повреждений.
3. Качество крепления компонентов.
4. Качество укладки и крепления кабелей.

Если изделие соответствует всем нормам и стандартам сборки компании, оно отправляется в тестовую зону.

Нагрузочное тестирование


На тестовом стенде сервер подвергается длительной нагрузке на все подсистемы. Для этого специально разработана методика, которая обеспечивает максимальную утилизацию ресурсов аппаратной части сервера с помощью программного комплекса. Это позволяет выявить неисправность или несовместимость оборудования. Методика заключается в следующем: Запускается скрипт, который производит опрос системы и определяет состав оборудования и версии драйверов. В зависимости от комплектации скрипт запускает последовательно множество тестов и их комбинаций.
Сюда относятся: десятки последовательных программных перезагрузок (soft reset), специализированные тесты графической подсистемы такие как SPECviewperf, 3DMark, специализированные тесты нагрузки процессоров от производителей, которые в отличие от популярного BurnInTest грузят абсолютно все блоки процессора, выводя его на расчетный TDP, собственные специализированные тесты дисковой подсистемы, имитирующие все виды нагрузок (линейные, случайные, смешанные) и прочий нагрузочный функционал, который нагружает и проверяет работоспособность процессоров и памяти, сетевых и дисковых контроллеров, всех накопителей, оптических приводов, графических сопроцессоров и прочих дополнительных устройств.
Стандартное тестирование длится от 18 до 30 часов в зависимости от конфигурации. Подобная методика тестирования готового изделия позволяет нам практически полностью исключить выпуск нестабильно работающего оборудования.

Гарантийный сервис


Благодаря нагрузочным тестам и выходному контролю, почти 100% от всех гарантийных случаев составляет выход из строя комплектующих после длительной эксплуатации — жесткие диски, затем блоки питания, значительно реже — платы распределения питания, бэкплейны, модули памяти. Крайне редко — материнские платы со скрытым браком, видеоадаптеры и RAID-контроллеры.
Преобладающее большинство обращений по гарантии приходится на последний, третий год гарантийного срока изделия. Процент гарантийных обращений крайне мал, но в количественном измерении, учитывая объёмы произведённых серверов, он весьма значителен. И это не смотря на все меры контроля и проверки.
Поэтому уровень гарантийного сервиса — это одно из основных преимуществ качественного производителя перед т.н. «самосборщиком». Приобретая «самосборный» сервер, пользователь зачастую получает сборщика в виде «прослойки» между конечным потребителем и производителем комплектующих. Даже если у клиента есть возможность обращаться по гарантии к такому сборщику напрямую, проблема всё равно транслируется производителю, и это существенно увеличивает срок реакции. Экспертиза и замена зачастую производится производителем комплектующих, и клиент вынужден ждать, когда пройдут все процедуры.
Наша компания, как уважающий себя производитель серверов, гарантийный сервис обеспечивает самостоятельно.

Особенности нашей гарантии:

Срок гарантийного обслуживания 3 года. Это стандартный минимальный срок обслуживания по гарантии в сервисном центре, который распространяется на все компоненты сервера. Даже на оптические приводы, вентиляторы и батарейки RAID-контроллеров, где гарантийный срок, заявленный производителем данных компонентов не превышает обычно одного года, а в ряде случаев составляет 6 месяцев. Тем не менее, трёхлетней гарантией обеспечивается всё изделие.

Сервисные центры во всех крупных городах России. Более 70 сервисных центров обслуживают по гарантии оборудование STSS Flagman и позволяют решать простые вопросы и проблемы средней сложности на месте.

Диагностика неисправности собственной сервисной службой. Во-первых: это позволяет максимально сократить время реакции. Во-вторых: диагностируется изделие в сборе, а не предположительно неисправный компонент — это позволяет избежать замены рабочей комплектующей на рабочую, и сократить время ремонта. Но если по полученным от клиента данным инженер удалённо точно определил неисправность — возможна упреждающая замена неисправной комплектующей, в основном это применимо к дискам, памяти и блокам питания с горячей заменой.

Оперативная замена. При выявлении гарантийного случая, замена производится с собственного склада. Взаимодействие с производителем комплектующих на тему замены остаются «за кадром» для конечного пользователя. Наша гарантия позволяет избежать волокиты по схеме:
Клиент -> Сборщик -> Производитель комплектующих -> Сборщик -> Клиент
Наша схема гарантийного обслуживания имеет более комфортный для клиента вид:
Клиент -> Производитель серверов -> Клиент

Расширенный гарантийный сервис. Гарантийные планы с увеличенным сроком обслуживания, сокращенным временем реакции и исправления неисправности, позволяют клиенту подобрать оптимальный уровень страховки от длительного простоя оборудования.

Технический пресейл


Не все наши клиенты способны определить потенциальную нагрузку на сервер, учитывая особенности ПО и выполняемых задач.
Если клиент знает условия эксплуатации, тип и уровень планируемых задач для сервера или СХД, но не знает как это сопоставить с требуемой конфигурацией «железа» — наш пресейл-инженер подбирает необходимую конфигурацию.
Расчет ведётся исходя из следующих параметров:
1. Исходя из типа и уровня сложности планируемых задач определяется оптимальная конфигурация вычислительной, дисковой и графической подсистем, тип и производительность сетевых контроллеров.
2. Учитывая необходимость в масштабировании системы в будущем, выбирается платформа с запасом для расширения. В зависимости от задачи, закладываются свободные дисковые отсеки, более мощный блок питания, свободные слоты под PCI-E-устройства и ОЗУ. В некоторых случаях заказчику требуется свободный сокет для увеличения вычислительной мощности в будущем.
3. Понимая требования к отказоустойчивости сервера, подбирается уровень RAID-массива, закладываются двойные блоки питания и другие элементы отказоустойчивости. Рассматриваются возможности резервирования SAS-экспандеров и RAID-контроллеров, а в ряде случаев, когда необходима наивысшая доступность — проектируется кластер без единой точки отказа.
4. В зависимости от уровня критичности отказа сервера и стоимости простоя бизнес-процессов, подбирается оптимальный гарантийный план, позволяющий минимизировать затраты заказчика в случае выхода сервера из строя.

С виду может показаться, что это не сложно, но в реальности процесс подбора действительно оптимальной конфигурации под конкретные задачи весьма не прост. Необходимо оценить, какие параметры аппаратных ресурсов использует ПО. Что в данном случае важней — частота процессора или количество ядер? Канальность, частота или объем памяти? IOPs или MB/s? Объем видеопамяти или мощность видеопроцессора?
Выявление и ликвидация «узких мест» системы, позволяет построить сбалансированную систему, которая будет выполнять задачи заказчика с максимальной эффективностью.
Если задача не тривиальна, и пресейл-инженер не может сходу спроектировать решение, остаётся тестирование в реальных условиях на реальных задачах с анализом результатов. Это может производиться и в нашей лаборатории и на площадке заказчика.

Продуктовый маркетинг


Задача продуктового маркетинга направлена на то, чтобы предложить клиенту не просто перечень комплектующих в той или иной платформе, а готовое программно-аппаратное решение под конкретные задачи. Серверы, СХД и рабочие станции классифицируются и позиционируются не только по техническим характеристикам, но и по функциям и ролевым предназначениям.
Причём продукты эти сбалансированы, протестированы и оптимизированы под выполнение конкретных задач пользователя.
Примером подобных решений могут быть серверы для видеонаблюдения или ВКС, хосты виртуализации, графические фермы и отказоустойчивые кластеры. Всё это позволяет заказчику быстрей определиться с конфигурацией решения и не «изобретать велосипед»

Почему наш подход востребован на рынке?


Кто-нибудь задавался вопросом почему мы все в принципе пользуемся платными услугами? Даже не теми, которые уникальны, а теми, которые могли бы заменить своими силами и средствами.
Например: доставка, автомойка, автосервис, различные агенства (туристические услуги, организация праздников и мероприятий и пр.), прачечная, столовая общественного питания. Этот список можно продолжать бесконечно.
Такая же ситуация наблюдается и в сфере бизнеса. Есть компании, которые пользуются сторонними услугами практически всех категорий, не связанных с прямым бизнес-процессом и вектором компании. Примером тому могут стать услуги: охранных предприятий, клининговых компаний, IT-аутсорсинга, кадровых агенств. Почему компании платят не маленькие деньги за подобные услуги и не пытаются выполнять их собственными силами? Почему организации арендуют склады, дата-центры и пользуются услугами логистических компаний? Они что, не способны реализовать всё это своими силами?
Как правило руководители таких предприятий хорошо умеют считать деньги.
Зачем раздувать штат работников и, как следствие, руководителей этих работников, проводить обучение, расширять офисные площади, когда можно воспользоваться услугами специализированной фирмы, которая сделает всё качественно, быстро и, скорей всего, за меньшие деньги? Компания при этом продолжает работать и зарабатывать тем, на чём специализируется, для чего и создавалась.
Я вижу две основные причины, по которым организации пользуются аутсорсингом:
1. Деньги. Затраты на всестороннее развитие и содержание инфраструктуры компании либо не окупаются, либо окупаются очень долго.
2. И деньги. Время и ресурсы, высвобожденные при использовании аутсорсинга, позволяют заработать денег больше, чем затраты на него.
Грамотный финансист и CIO скажет Вам, что OPEX почти всегда лучше чем CAPEX

Наши заказчики принадлежат различным отраслям и сегментам российского бизнеса и государственных образований. Одни имеют отдел IT, другие не имеют. У одних есть необходимые компетенции в сфере серверного оборудования, у других нет.
Есть заказчики, которые могут реализовать большую часть наших услуг своими силами, но они приходят к нам. Почему?
Потому что обращаясь к нам, они получают готовый сертифицированный продукт с гарантией качества. Избегая все вышеперечисленные трудности, с которыми они могут столкнуться, наши заказчики направляют свои усилия на основное направление фирмы: будь то разработка ПО или системная интеграция, торговля или производство.

Заключение


Надеюсь у меня получилось провести более-менее оформленную грань между производителями и «самосборщиками» на примере нашей компании. Мы продолжаем развиваться и расширять спектр услуг, сохраняя при этом основной вектор — серверы, СХД, комплексные инфраструктурные решения. На данный момент мы заканчиваем реорганизацию демозоны в Московском офисе. Здесь будут демонстрироваться решения по виртуализации и кластеризации. Развернуты системы видеонаблюдения основных отечественных разработчиков. Решения по активному шумоподавлению для серверных шкафов.
Наша демозона открыта для заказчиков с реальными задачами, требующими тестирования производительности реального программно-аппаратного решения. После реорганизации будет открыт доступ для тестирования извне и демонстрации работы решений удалённо.

Спасибо за внимание, жду Ваших комментариев и ответов в опросе!
Если по работе мне нужен сервер, то я:
48.1% Собираю его самостоятельно. Хочешь сделать хорошо - сделай это сам! 141
5.1% Прошу специально обученных коллег. 15
6.8% Когда покупаю комплектующие - прошу чтобы сразу и собрали. 20
5.4% Пользуюсь продукцией отечественных производителей. 16
34.4% Доверять можно только A-брендам. Покупаю готовые продукты от мировых производителей. 101
Voted 293 users. Passed 115 users.
+5
22.5k 40
Comments 32
Top of the day