rustyn 28 янв 2019 в 14:49

Innovate Cloud Technology: облако с защитой от катастроф

13 мин

2.2K

Блог компании Lenovo IT-инфраструктура *Хранение данных *Хранилища данных *Облачные сервисы *

Рынок облачных сервисов быстро растет как в мире, так и в России. Все больше компаний переносят свои приложения и данные, в том числе и критичные для бизнеса, в облачную среду. Как утверждают маркетологи, это позволяет бизнесу использовать самые современные инновационные облачные решения, сокращая капитальные затраты (переводя CAPEX в OPEX), быстрее выводить на рынок новые продукты и запускать новые услуги. И подобные доводы не оставляют равнодушными потенциальных клиентов. Не случайно темпы роста российского облачного рынка существенно опережают рост рынка традиционной, классической ИТ-инфраструктуры.

Постепенно развеиваются сомнения в надежности и безопасности облаков. Как показало недавнее исследование iKS-Consulting, почти 40% опрошенных российских компаний видят в использовании публичных облаков возможность повышения безопасности своих ИТ-систем. Наиболее популярным инфраструктурным облачным сервисом является аренда виртуальных серверов. На втором месте по популярности – услуга облачного резервного копирования (Backup-as-a-Service). Около трети респондентов используют облачные сервисы для размещения хранилищ и DR-инфраструктуры.

Между тем с увеличением зависимости бизнеса от ИТ требования к надежности ИТ-сервисов, включая облачные сервисы, растут. Причем нередко возникает необходимость обеспечить не только аппаратную надежность, но и катастрофоустойчивость.

По данным исследований, почти три четверти организаций в мире не полностью уверены в том, что смогут восстановить свои системы и данные. Внеплановые простои и потери данных обходятся организациям по всему миру ежегодно более чем в 1,7 млрд. долларов. Согласно исследованию Acronis, в России только 2% опрошенных компаний абсолютно уверены в том, что их ИТ-инфраструктура выдержит любые испытания. Половина российских специалистов ожидают длительных перебоев в её работе в случае стихийного бедствия или аварии. Согласно мировой статистике, 93% компаний, лишившихся своего дата-центра всего на 10 дней, разоряются в течение года.

В любых технически сложных системах аварии неизбежны, однако их можно сделать не критичными для бизнеса. Для предотвращения таких ситуаций создаются катастрофоустойчивые кластерные системы, практически исключающие простои в случае аварий и сбоев.

Еще один важный момент, о котором нельзя забывать при проектировании катастрофоустойчивой ИТ-инфраструктуры – рабочие места пользователей. Нужно возобновить бизнес-процессы, а не просто переключиться на резервный сервер или поднять БД. Катастрофоустойчивость начинается с офиса клиента. Даже резервный офис с рабочими местами сотрудников — не оптимальный вариант. Хорошим решением могут стать виртуальные рабочие места (VDI) или иные формы рабочего места в облаке. Доступ к такому рабочему месту на виртуальной машине в ЦОД легко организовать с любого компьютера в филиальной сети.

Инновации в облаке

Российский оператор связи «МастерТел» и компания Lenovo совместно подготовили и реализовали проект создания катастрофоустойчивого облака под названием Innovate Cloud Technology. На базе этого облака широкому кругу заказчиков, которые хотели бы разместить в облачной среде критичную ИТ-инфраструктуру, предоставляются высоконадежные сервисы IaaS. Основой облака стал метро-кластер, разнесенный между двумя площадками – дата-центрами DataPro и IXсellerate в Москве.

Выбирая партнера для этого проекта, компания «МастерТел» руководствовалась, прежде всего, способностью вендора оперативно предоставить наиболее полное решение за разумные деньги. Для реализации облака, запущенного в октябре 2018 года, была привлечена команда специалистов Lenovo Professional Services. «МастерТел» выступает в роли облачного провайдера (Cloud Service Provider) и телекоммуникационного оператора, организующего защищенные каналы связи и предоставляющего прямые волоконно-оптические линии, отвечает за эксплуатацию облака и его поддержку.

Innovate Cloud Technology – частное облако для корпоративных клиентов, предлагающее высоконадежные и масштабируемые в режиме реального времени облачные сервисы IaaS, BaaS, DRaaS, VDS и т.д. Что дает использование сервисов Innovate Cloud Technology?

Высокая надежность

В настоящее время большинство облачных проектов, по сути, предоставляют мощности в аренду. Как правило, это создание виртуальных серверов (самая распространенная в России услуга коммерческих ЦОД) и доступ к уже сформированному пулу ресурсов. В случае Innovate Cloud Technology все настройки заказчик может сделать онлайн, ресурсы выделяются и освобождаются динамически и с оплатой по факту, исключительно за использованные ресурсы, как и положено классическому облачному сервису.

Но, пожалуй, самая важная черта Innovate Cloud Technology – это высокая надежность. Заказчики могут использовать облачную инфраструктуру высокой доступности и хранить высококритичные данные в географически разнесенных ЦОД DataPro и IXсellerate. Эти площадки уже сами по себе гарантируют надежность и высокий уровень физической и информационной безопасности. А надежные высокоскоростные каналы связи и доступ к обоим дата-центрам обеспечивает «МастерТел».

Innovate Cloud Technology – это облачные ресурсы с гарантированной доступностью 99,99% по SLA. Однако данное облако отличает не только высокая надежность, но и катастрофоустойчивость, ведь это географически разнесенный кластер виртуализации на двух площадках уровня Tier III.

Дата-центр DataPro

Этот ЦОД Tier III на ул. Авиамоторная в Москве — один из немногих российскиих коммерческих ЦОД, получивших сертификацию Uptime Design и Facility. Все используемые в ЦОД технологии и решения сертифицированы, что означает максимальную отказоустойчивость, гарантированную доступность ресурсов и является страховкой от неожиданных ситуаций.

Центр управления ЦОД DataPro. Международная сертификация Uptime Design и Facility означает, что он спроектирован и построен в соответствии со всеми действующими стандартами для категории надежности Tier III.
Охрана отвечает за безопасность самого ЦОД и прилегающей территории. Система безопасности включает более 350 сетевых видеокамер. Для бесперебойного и гарантированного электроснабжения применяются источники бесперебойного питания (ИБП), используются дизель-генераторные установки (ДГУ), поддерживающие работу дата-центра при продолжительной аварии в электросети.

В ЦОД DataPro — два независимых ввода 10 кВ от подстанции Мосэнерго, причем кабели проложены в разных коллекторах, обеспечивают подачу необходимой электрической мощности к объекту. Электропитание ЦОД фактически резервируется по схеме 2N.

IXcellerate Moscow One

ЦОД Moscow One компании IXcellerate также обладает сертификатом Uptime Institute уровня Tier III в категории Design. Объект также соответствует уровню надежности Level 3 по категориям «проект», «строительство» и «эксплуатация» согласно методологии IBM Reliability Rating System. IXcellerate Moscow One реализован технически и гарантирован на уровне SLA с показателем доступности — 99,999%. Общая площадь ЦОД IXcellerate Moscow One в Дегунино составляет 15741 кв. м. Проектная мощность объекта достигает 13,7 МВт. Клиенты ЦОД — около сотни международных и российских компаний.

Прохождение сертификационных испытаний Uptime Institute доказывает, что вычислительный комплекс IXcellerate спроектирован в соответствии с современными мировыми практиками строительства центров обработки данных.

Катастрофоустойчивость

Распределение по двум площадкам требует организации резервируемых каналов связи, репликации данных между хранилищами. Нужен механизм синхронизации данных для обеспечения их актуальности в случае отказа одного из узлов и для поддержки работы тех информационных систем, которым требуется такая синхронизация.

Нередко в основе устойчивого к катастрофам ЦОД – территориально-распределенная кластерная конфигурация серверов с подключением к общей сети хранения данных (SAN). Узлы такого разнесенного кластера размещаются на основной и резервной площадках, образуя единую систему. Это обеспечивает непрерывную доступность сервисов даже в случае потери одного из ЦОД. С помощью кластеризации можно обеспечить автоматическое переключение нагрузки между площадками распределенного ЦОД в случае аварии.

Системы хранения данных на указанных площадках могут полностью дублировать друг друга, а сами площадки связывают резервированными высокоскоростными каналами связи, что позволяет реализовать проекты с самыми высокими требованиями к надежности передачи данных и их доступности, включая синхронную репликацию данных.

Пример конфигурации метрокластера на базе VMware vSphere. в его основе — дублирование систем хранения на двух территориально разделенных площадках с репликацией данных и возможным балансированием нагрузки на уровне сети ЦОД. При недоступности одного из дата-центров виртуальные машины будут автоматически запущены на второй площадке. Метрокластер — это практически нулевой простой, работа прерывается только на время запуска виртуальных машин, когда VMware High Availability (HA) перезапускает ВМ на удалённой площадке с СХД, которая находится в кластере.

Если задействовать для DR механизмы балансирования нагрузки (Global Server Load Balancing, GSLB), то можно автоматически переключать пользователей на резервную площадку при отказе основной. Для пользователей это процесс будет прозрачным.

В отличие от DR с репликацией данных, в случае метрокластера для зеркалирования используются только одинаковые типы дисков, нужна идентичная конфигурация на обеих площадках.

Облако Innovate Cloud Technology на базе VMware построено именно по такой схеме. Оно обеспечивает непрерывную работу критичных приложений и данных в облаке. Все элементы кластера виртуализации продублированы на двух площадках, удаленных друг от друга почти на 30 км. Между ними настроено зеркалирование данных на уровне системы хранения. Благодаря этому данные и сервисы будут доступны при сбоях на одной из площадок: отключении электропитания, частичном выходе из строя СХД, контроллеров, каналов связи между ЦОД и даже в случае полной неработоспособности одной из площадок.

При недоступности одного из дата-центров выполняется миграция виртуальных машин на резервную площадку. Запуск виртуальной машины на резервной площадке (Recovery Time Objective, RTO) займет порядка 3 минут.

Клиентам предлагается детальное соглашение об уровне обслуживания (Service Level Agreement, SLA). Его основные показатели: доступность сервиса на уровне 99,99%; простой – не более 4,38 минут в месяц, гарантированные параметры производительности процессора (MIPS / 1 vCPU), дисковой системы (IOPS, Гбайт/с), задержки при доступе к СХД. За их соблюдение провайдер несет финансовую ответственность.

Анатомия метрокластера

Облако построено по классической архитектурной модели, предполагающей покупку всего комплекса необходимого аппаратного и программного обеспечения: серверов с организацией физического и логического доступа, СХД, сетевых компонентов, программного обеспечения для виртуализации, решений безопасности.

В двух дата-центрах в Москве организованы выделенные закрытые зоны на четыре стойки с вычислительными и сетевыми узлами. Решение построено на компонентах производства Lenovo. В качестве аппаратных вычислительных систем используются серверы 1U Lenovo ThinkSystem SR530/SR570/SR630 с адаптерами Emulex 16Gb Gen6 FC Dual-port HBA, для хранения данных – массивы Lenovo Storage V3700 V2 XP, а для передачи данных – 32-портовые стоечные коммутаторы 10 Гбит/с Lenovo ThinkSystem NE1032 RackSwitch. В комплект поставки входит фабрично установленное на серверах ПО VMware ESXi 6.5. Площадки связаны двумя каналами FC 8 Гбит/с и двумя каналами Ethernet по 10 Гбит/с.

Структура территориально распределенного кластера. Разнесенный между двумя площадками метро-кластер обеспечивает катастрофоустойчивость и дает возможность предоставлять надежные сервисы IaaS широкому кругу заказчиков. Площадки связаны резервированными каналами Ethernet (2х10 Гбит/с) и FC (2x8 Гбит/с).

За счет приобретения компонентов инфраструктуры у одного поставщика повышается надежность и отказоустойчивость всего комплекса, исключаются конфликты между элементами, стандартами и протоколами.

Совместными усилиями двух команд были выполнены работы по созданию проекта, подготовке и проработке ТЗ, монтажу оборудования, пусконаладке, стресс-тестированию и запуску метрокластера в эксплуатацию.

Метрокластер Lenovo предусматривает полное резервирование всех своих элементов: серверов, СХД, контроллеров, FC-адаптеров, оптических коммутаторов. Синхронная репликация данных на уровне СХД обеспечивает нулевое значение Recovery Point Objective (RPO).

Высокая доступность всегда достигалась путем обеспечения избыточности — это актуально и в случае подготовки к экстремальным ситуациям, когда весь ЦОД необходимо защитить от перебоев в подаче электроэнергии или от природных катастроф. Если одна из площадок выходит из строя, территориально разнесенный кластер автоматически и без прерывания рабочих процессов переключается на второй центр обработки данных. По сути, метрокластер — это локальный кластер с зеркалированной системой хранения, разнесенный между двумя площадками.

Территориально распределенные кластеры не имеют критических точек отказа. В метрокластере реализуется взаимная синхронная репликация данных между площадками. При возникновении проблемы переключение на другую площадку происходит совершенно прозрачно и без вмешательства администратора. Автоматизация этого процесса гарантирует непрерывную работу всех приложений. Метрокластеры также не требуется останавливать, чтобы обновить их аппаратное или программное обеспечение.

Например, при отказе всего сервера его обязанности в течение нескольких секунд переходят ко второму серверу, расположенному на той же самой площадке. Происходящее в этом случае кратковременное прерывание ввода-вывода данных не скажется на работе приложений, поскольку данные синхронно зеркалируются на вторую площадку. При проблеме в работе коммутатора, кабеля или HBA-адаптера Fibre Channel резервного переключения на второй ЦОД не потребуется, и конечный пользователь не ощутит никакого снижения производительности приложений.

В случае отказа всего сервисного узла происходит кратковременное (несколько секунд) прерывание потоков ввода-вывода: сервисы сначала переносятся на соседние узлы, и необходимость в переключении на территориально удаленный узел возникает, только если работа площадки нарушается полностью.

В этой ситуации территориально разнесенный кластер использует избыточность на уровне ЦОД для преодоления сбоя, и системы, находящиеся на второй площадке, берут на себя поддержку всех сервисов. Таким образом, серверы приложений сохраняют доступ ко всем службам, но с ограниченной производительностью.

Когда площадка, на которой произошел сбой, снова войдет в рабочий режим, потребуется передать на нее только те данные, которые были изменены за время простоя, поэтому после устранения локальных проблем пострадавший ЦОД сможет очень быстро вернуться к нормальной работе.

В случае потери хостов VMware High Availability (HA) сразу же перезапускает ВМ на удалённой площадке. При отказе одной из СХД система хранения на другой площадке анонсирует пути к дискам оставшимся хостам. На них перезапускаются утраченные ВМ, всё происходит автоматически.
Если теряется связь между площадками, то всё продолжает работать на своих местах и, как только связь восстанавливается, начинается процесс синхронизации.

Состав решения

Восемь серверов Lenovo ThinkSystem SR630 с 2 процессорами Intel Xeon Gold 6132 14C 140W 2.6 ГГц, 32 Гб памяти TruDDR4 2666 МГц (RDIMM), 10 отсеками для накопителей 2.5", накопителями M.2 32 Гб SATA SSD и фабрично установленным ПО VMware ESXi 6.5.	Двухпроцессорный сервер в форм-факторе 1U обладает гибкостью и производительностью за счет поддержки жестких дисков и твердотельных накопителей (HDD и SSD) с интерфейсами SAS или SATA (12 SFF или 4 LFF). Благодаря возможности подключения накопителей NVMe обеспечивается высокая скорость чтения и записи. ПО Lenovo XClarity Administrator упрощает процессы управления и обслуживания инфраструктуры. Данное конструктивное решение ориентировано на баланс производительности и цены для поддержки широкого спектра рабочих нагрузок, рассчитано на непрерывную эксплуатацию при температуре 45°C.
Две системы хранения Lenovo Storage V3700 V2 XP с 1.92 Тб 2.5" SAS SSD и 1.2 Тб 2.5" 10K HDD, с программным обеспечением Easy Tier, FlashCopy и Remote Mirroring.	Набор функциональных инструментов СХД позволяет эффективно решать задачи с большими объемами данных и с многопоточным доступом к информационным ресурсам.V3700 V2 XP обеспечивает возможность консолидации нагрузок, поддерживает формирование систем для хранения данных, способных поддерживать многочисленные ресурсоемкие приложения. Система на процессорах Intel отличается высокими показателями производительности и скоростью обмена данными посредством шины SAS, функциональными инструментами, которые ранее были доступны только в устройствах старшего класса. СХД предлагает Web-интерфейс с интегрированными функциями управления, обеспечивает формирование гибких рабочих конфигураций и их быстрое развертывание с помощью средств виртуализации, выполнение резервного копирования приложений посредством FlashCopy. Поддерживается вертикальное масштабирование до 240 накопителей 2,5 дюйма или 120 накопителей в форм-факторе 3,5 дюйма. Для масштабирования можно задействовать девять блоков расширения.
СХД Lenovo V3700 V2 с 20 дисками 2 Тб 2.5" 7.2K HDD	Система предоставляет набор инструментов, обеспечивающих унифицированную виртуализацию, масштабирование и управление. Она представляет собой гибридное решение с возможностями виртуализации. СХД Lenovo Storage V3700 V2 имеет два RAID-контроллера, позволяет использовать любые форматы хранения — как жесткие диски форм-фактора 3.5", так и HDD или SSD форм-фактора 2.5". СХД стандартно поставляется с системным ПО с функциями Virtualization of Internal Storage, Thin Provisioning, One-way Data Migration, FlashCopy (64 копии). Дополнительные функции — FlashCopy (2048 копий), Easy Tier, Remote Mirroring.
Четыре 32-портовых коммутатора Ethernet 10 Гбит/с Lenovo ThinkSystem NE1032 с трансиверами SFP+ SR.	Коммутатор оснащен 24 портами 10GBase-T и 8 портами SFP+ 10 Гбит/с для каскадирования. В нем используется архитектура Lenovo Cloud NOS, поддерживается автоматизация с учетом ВМ. Система NE1032 оптимизирована для центров обработки данных. Ее отличают стабильная производительность уровня L2/L3 и конкурентная маршрутизация по IP-адресам, отказоустойчивый стек с поддержкой BGP, автоматизация с учетом ВМ, автоматическое предоставление ресурсов для ускорения ввода в эксплуатацию и интеграция с ПО Lenovo XClarity.
Четыре коммутатора Fibre Channel Lenovo B6505 FC SAN c 12 портами SFP 16 Гбит/с.	Этм коммутаторы Fibre Channel 5-го поколения для сетей хранения данных предназначены для подключения к хранилищам данных с высокой производительностью и рассчитаны на поддержку критически важных бизнес-приложений. Они поддерживают технологии флэш-массивов и гибридных дисковых массивов при скорости 16 Гбит/с.

Сервер Lenovo ThinkSystem SR630, отличающийся самой емкой подсистемой хранения данных и самой высокой производительностью среди всех серверов Lenovo высотой 1U, справляется с разнообразными рабочими нагрузками. Он позволяет использовать референсные модели построения облаков.

Сервер ThinkSystem SR630 содержит два производительных процессора Intel Xeon, до четырех разъемов PCIe 3.0 для установки различных адаптеров ввода-вывода. Технология AnyBay обеспечивает поддержку жестких дисков и твердотельных накопителей с интерфейсами SAS или SATA (12 устройств форм-фактора SFF или 4 устройства форм-фактора LFF). Четыре порта NVMe на материнской плате, предназначены для прямого подключения накопителей NVMe.

Lenovo Storage V3700 V2 XP — продолжение линейки IBM Storwize. Версию XP характеризует высокая производительность и гибкость конфигурации.

Что в итоге? Развернутый «МастерТел» метро-кластер позволяет за счет поддержки синхронного зеркалирования и кластеризации на базе массивов достичь постоянной готовности и полностью исключить потери данных. ПО обеспечивает прозрачность аварийных переключений, что гарантирует бесперебойную работу критически важных приложений. Lenovo не впервые участвует в подобных проектах. Портфель продуктов компании включает в себя серверы, системы хранения данных и сетевые средства. И серверы х86 выступают в роли платформы виртуализации VMware.

Конечно, метрокластер — решение непростое и недешевое, но в тех случаях, когда надо обеспечить бесперебойную работу, когда стоимость простоя или повреждения данных высока, обычно предпочитают не экономить.

Теги:

Хабы: