lohansky Mar 24 2011 at 19:52

Новая система хранения в облаке

5 min

19K

Оверсан corporate blog

+40

Comments 77

artamonovg Mar 24 2011 at 19:58

Сколько у Вас всего IBRN? Секрет? :-)

lohansky Mar 24 2011 at 20:02

Несколько десятков.

damad Mar 24 2011 at 20:52

Скалакси больше не ведет свой блог? Или эта СХД к Скалакси не имеет отношения?

lohansky Mar 24 2011 at 21:05

Скалакси — проект компании Оверсан.

damad Mar 24 2011 at 21:11

Ну это понятно. Вопрос в другом, СХД создавалось для Скалакси или для общих нужд Оверсан и Оверсан-Скалакси?

lohansky Mar 24 2011 at 21:14

Для Скалакси.

lohansky Mar 24 2011 at 21:15

Оба блога Скалакси и Меркурия уже давно склеили в один, далее все новости и события будут только тут.

equand Mar 24 2011 at 20:53

www.oracle.com/us/products/servers-storage/sun-zfs-storage-family-ds-173238.pdf
А это не рассматривали?
Младшие модели стоит 10/20 тысяч долларов (с дисками).
Старшие не могу сказать сколько, но в ней есть все!
Компрессия, дедубликация, репликация, кластеризация, Infiniband из коробки и т.п.

lohansky Mar 24 2011 at 21:10

Что бы эта штука стала действительно производительной нужно купить кэшей + желательно SSD кэшей и тогда оно становится дорогой.

equand Mar 24 2011 at 21:28

Да, но в других системах вот это все есть? Компрессия? Dedup? Snapshotting (для хот бекапа незаменимо)?

lohansky Mar 24 2011 at 21:33

Снапшоттинг есть в lvm. Остальное гасит производительность. Бесспорно NetApp, EMC и другие системы хранения хороши, но их розничная стоимость столь высока, что мы как продавцы облачного хостинга вылетим с рынка. Объемы же российских заказов сегодня такие, что рассчитывать на закупку крупным оптом для получения нормальных скидок не приходится.

sfcr Mar 25 2011 at 00:27

А ваш мегасвич, если не секрет, сколько стоит?

Самое большое ib-оборудование, которое мне доводилось использовать, было циской на 128 DDR портов.

(Зато с ним шел цисковский ультрапроприетарный и инфернальнонадежный сабнет-менеджер, под который циска заставляла ставить два отдельных сервера, без всяких «но»)

lohansky Mar 25 2011 at 00:36

Около 6 млн рублей.

track Mar 25 2011 at 06:42

Как человек «близкий к телу» могу вам сказать, что, допустим, NetApp сейчас очень интересны задачи, подобные решаемой вашей компанией, то есть облачный хостинг, так как в мире они довольно неплохо в нем представлены (тот же rackspace или yahoo, например), а в России — пока нет.
А раз так, то возможны очень, очень значительные скидки на такие как ваши применения.

Не спорю, вы проделали интереснейшую и нужную работу, особенно интересно будет, если вы сможете опубликовать подробности. И, надеюсь, поставленным задачам ваша система соответствует, а «делать новое» всегда интереснее чем «вливать мешок бабла» и покупать готовое.

Но если когда-нибудь вам в будущем будет интересен NetApp, то не стесняйтесь спрашивать. Цены на ваши задачи будут совсем-совсем не «по прайслисту». :)
Может быть и попадем в ваш бюджет. Тем более, повторюсь, нетаппу это направление очень интересно и важно и самому.

damad Mar 25 2011 at 09:03

Пообщаемся? Напишите в личку свои контакты.

track Mar 25 2011 at 14:54

Передал заинтересованным людям.
А в СПБ с нетаппом по близкой тематике работает IT-Град, возможно вы их даже знаете. У них и оборудование в демо должно быть.

netto Mar 25 2011 at 06:04

В NetApp все это есть. Все это и многое другое, что еще пока не скопировано в ZFS ;)

equand Mar 24 2011 at 21:30

К тому же ZFS сама по себе намного шустрее работает и с кешем обращается лучше, чем многие иные FS.

lohansky Mar 24 2011 at 21:36

FS в нашем случае лишнее, нам нужен блочный доступ. Любая FS, даже ZFS, будет давать падение производительности. К тому же это опять проприетарное и непредсказуемое по/железо. Уж лучше тогда проверенные NetApp или EMC.

netto Mar 24 2011 at 20:56

> нам удалось получить более 120 тысяч IOPS на запись с пары IBRN

Вы не сказали главное, на каком паттерне доступа и при каком размере блока.
А так — ну 120 тысяч IOPS. Видали и побольше, и не на Infiniband.

lohansky Mar 24 2011 at 21:13

Мы все подробно расскажем в следующем посте, когда опубликем тесты производительности дисковых систем разных облачных хостеров. 120Kiops — 4kb блоки, random write.

-1

netto Mar 24 2011 at 21:17

Каков был объем тестировочного блока данных по отношению к общей емкости хранилища?

netto Mar 25 2011 at 06:30

Поясню вопрос. От размера тестируемого объема сильно зависит результат в IOPS. На маленьком объеме можно достичь весьма высоки результатов даже без «революций».
Вот пример на системе 8-летней давности, на одном 4Gb FC, на 10 дисках и 2GB cache, при 8GB тестируемой области на паттерне OLTP Database (4KB block, 70/30 read/write, 100% random)

Почти 20 тысяч IOPS, без революций.
При росте объема тестируемой области на весь доступный объем результат, конечно, упадет.

А так — 50K IOPS это «скорость провода» одного уже повсеместного, и все более дешевого 8Gb FC.
То есть 120K IOPS это всего лишь полностью загруженные 3 канала FC.
Стоило ли городить огород с инфинибендом? Пока, из вашего рассказа — неясно в чем цимес. Замах на рубль — удар на копейку, говорилось в моем детстве голозадом. :)

lohansky Mar 25 2011 at 11:51

Целью это разсказа было показать, как именно устроена наша новая система хранения. Тесты на производительность, как я уже сказал, мы опубликуем в следующих постах, вместе с методикой.

3 загруженных канала FC, 3 порта в FC свитче, три оптических кабеля = $$. Infiniband делает все это в одном линке, также успешно справляясь с IP-траффиком и миграциями vm между вычислительными узлами, а стоимость порта у него не выше стоимости 1 порта FC.

netto Mar 26 2011 at 14:39

Обратите внимание, что у Infiniband все совсем не так радужно, как обещают вендоры IB-оборудования.
chelsio.com/assetlibrary/Eight%20myths%20about%20InfiniBand%20WP%2009-10.pdf

Что, впрочем не означает автоматически, что все радужно у 10GB Ethernet, например. Но в случае 10GBE как-то больше перспектив пока видится.

lohansky Mar 26 2011 at 14:58

Существуют ровно такие же документы с противоположными утверждениями. Я в этой ситуации верю прайсам, которые мы просчитывали с коллегами, и реальной практике использования вот уже на протяжении 2-ух лет. У 10GB никаких исправлений в плане архитектуры не было, это все тот же унылый Ethernet, перспективы исправиться есть только у 40GE и они уже воплощаются в жизнь.

Alanir Aug 28 2012 at 10:31

Подскажите infiniband позволяет по одному подключению гонять разные протоколы? У Вас диски отдаются по scsi-rdma, а ip трафик между нодами ходит по IPoIB. Для IPoIB и RDMA используются разные IB карточки или все через один порт подключения?

lohansky Aug 28 2012 at 10:48

Все через один порт.

sfcr Mar 24 2011 at 23:58

GPFS поверх SRP выдавала, помнится, скорости в разы выше, чем GPFS самостоятельно использующая RDMA. Правда это решение было дико нестабильным — пришлось отказаться.

Не секрет, что и диски и ib куда быстрее дружат с блоками 0.5-2 мегабайта, а скорости при работе с блоками в 4кб получаются на порядок ниже. Вы не думали в сторону того чтобы использовать внутри виртуальных машин какую-нибудь ФС с большим размером блока?

lohansky Mar 25 2011 at 00:32

Это не универсально, у нас ведь и Windows.

sfcr Mar 25 2011 at 00:42

Ну, виндовс — это вообще отдельная тема =)

А вот если ориентироваться не на массовую аудиторию (нагрузка от которой подозрительно кореллируется с графиком школьных каникул), а скажем на сопровождение крупных проектов, то можно ведь навязать в некоторых технических аспектах свои правила в пользу эффективности? В том числе отняв у клиента право принимать неверные технические решения?

lohansky Mar 25 2011 at 00:48

У нас при сопровождении проектов так и сделано, в плане неверных технических решений. Но нужно скорее всего и размер блока нижлежащего устройства менять, а это на всех клиентов подействует.

sfcr Mar 25 2011 at 00:57

Но массового потребителя можно ведь выделить в отдельную зону/зоопарк/домен «где жизнь течет совсем по иным правилам»? Одно облако под внятные проекты с деньгами и одно облачко под ширпотреб?

vase Mar 25 2011 at 00:02

> 6. Перезагрузка Infiniband свитча.
> Клиентское I/O замораживается на время перезагрузки.

А каким образом ведет себя при этом клиентское ПО, которое динамически создает свои обработчики (apache, как пример)? На сколько я могу понять по-логике, число процессов начнет расти, потребление памяти увеличиться… В итоге имеем — перерасход денег клиента за время простоя/перезапуска оборудования провайдера. Как Вы боретесь с этим? Или пока не сталкивались с такой проблемой?

lohansky Mar 25 2011 at 00:33

Это время равно минуте, и мы не будем перегруждать свитч. Здесь описана аварийная ситуация.

BrandStorm Mar 25 2011 at 00:48

А каков процент попадания в кеш на СХДшках???

lohansky Mar 25 2011 at 16:43

Пока они еще только запущены, то 90-95%, как заполнятся, можно будет получить более адекватную статистику.

sply Mar 25 2011 at 17:27

Учитывая, что у большинста облачных хостеров состояние близко к «только запущены», тесты производительности дисковых система покажут, в основном, производительность сети и кэша.

lohansky Mar 25 2011 at 17:32

Это неверно, хранилища заполняются очень быстро. Мы будем проводить тестирование при полной загрузке пары IBRN.

-1

sply Mar 25 2011 at 17:40

Очень интересно, как вы снаружи можете определить заполняемость СХД у других хостеров? Утверждение «неверно» чем-то более весомым подкрепить сможете?

lohansky Mar 25 2011 at 17:43

Я уверен, что СХД rackspace или amazon заполнены достаточно, о своих же российских коллегах/конкурентах, которых мы будем тестировать, я знаю также достаточно.

-1

sply Mar 25 2011 at 18:01

Про rackspace и amazon возражений нет — учитывая их возраст и клиентскую базу, их реальная нагрузка более-менее близка к планируемой и является уже устоявшейся величиной.

У российских коллег/конкурентов положение совершенно другое — по причине их молодости и холодности данного рынка вообще, востребованная сейчас мощность на порядки меньше установленной.

sfcr Mar 25 2011 at 01:06

>— При создании нового диска на одном из IBRP выполняется команда lvcreate,
>запоминается таблица device-mapper для созданого тома, через device-mapper
>устройство создается уже на VRT и отдается в Xen.

То-есть на прокси и ксенах живет CLVM — верно?

lohansky Mar 25 2011 at 01:32

Нет, на Xen живет dm, а на прокси lvm, кластерный не нужен.

level3 Mar 25 2011 at 10:35

А что за сервера используются у вас для IBRN?
Никогда раньше не видел что бы корзины для дисков были и спереди и сзади :)
Даже после такой диковинки как Sun Fire X4500 где диски вертикально внутри корпуса, такое расположение кажется весьма интересным.

BrandStorm Mar 25 2011 at 17:01

Это Супермикра.
Подробнее www.supermicro.com/storage/

AstonMartin Mar 25 2011 at 20:32

А что будет если IB-свитч поломается? Только не говорите, что это в принципе не возможно.

lohansky Mar 25 2011 at 20:38

Свитч модульный, хранилище подключено разными линками в разные модули (всего 9 модулей), 6 блоков питания, бэкплейн полностью пассивный. Соответственно может вылететь модуль, что легко будет пережито.

BrandStorm Mar 26 2011 at 12:03

Т.е. вы хотите сказать, что у вас 1 модульный свитч? Выход из строя бекплейна хоть и редкая, но имеющая место штука.

lohansky Mar 26 2011 at 15:06

Шасси бывают двух видов, полностью пассивные и с активными компонентами. Активные шасси действительно время от времени могут выходить из строя (выгорел чип, кондер или еще что-нибудь). Данное шасси является полностью пассивным и представляет собой простую кремнивую пластину. Она может сгореть лишь при пожаре.

BrandStorm Mar 26 2011 at 15:18

Ну, вообще-то, я говорил про пассивные компоненты. Был печальный опыт с 2-мя известными производителями оборудования, когда выходил из строя пассивный бекплейн. Хотя вопрос был больше о кол-ве коммутаторов :-)

lohansky Mar 26 2011 at 15:22

Некоторые производители коммутаторов, в том числе известные, лгут о пассивности. Нужно просто осмотреть глазками. Те участки, где шасси действительно ненадежные естественно зарезервированны, например, коммутаторы и фаерволы Juniper, а также F5.

BrandStorm Mar 26 2011 at 15:39

Ну я бы не стал так говорить, не думаю, что Во… ир единственная честная компания. Ладно время покажет… Главное удачи вам и бесперебойной работы.

damad Mar 26 2011 at 13:28

а если корзина сломается? :)

lohansky Mar 26 2011 at 15:06

Ответил в выше.

damad Mar 26 2011 at 15:07

Ага :)

BrandStorm Mar 26 2011 at 12:10

А правильно ли я понимаю, что вы ушли от использования GPFS??? Т.е. у вас каждая виртуальная машина лежит не на файловой системе образом, а на партиции/разделе?

lohansky Mar 26 2011 at 15:06

Да, именно так.

BrandStorm Mar 26 2011 at 15:35

А как на счет фрагментации свободных разделов (например когда виртуальные машины пересоздаются или удаляются) или вы экспортируете на IBRN образы, расположенные на файловой системе?

lohansky Mar 26 2011 at 15:38

Все пространство с IBRN на IBRP объединяется в общую LVM группу, и выделением непосредственно места для клиентских образов занимается LVM на IBRP.

mrsombre Mar 29 2011 at 13:12

Зачем тогда drbd есть, если можно два md запустить на разных машинах, экспортировав диски обоих серверов по iscsi? это проще чем drbd. конкуретные mdadm обязаны общаться, чтобы правильно собрать деградировавший массив, а они этого не умеют, потому что для этого не предназначены. или рядом сидит архитектор и разделяет?

lohansky Mar 29 2011 at 13:25

Рэйд восстанавливается только на одной машине.

mrsombre Mar 29 2011 at 14:08

рассматривали ли вы split-brain сценарий разделения системы на две функционирующие половины, которые думают, что вторая половина умерла? в какой-то чудесный момент они могут встретиться. прорабатывали ли вы ситуации split-brain? если таковые невозможны, то почему?

lohansky Mar 29 2011 at 14:33

Промахнулся, ответ ниже.

lohansky Mar 29 2011 at 14:33

Split-brain возможен, если по какой-то причине (глюк в драйверах IB или SCST) на одной из проксей рэйд станет degraded, а на других нет. Сбойная прокси будет писать на одну половинку рейда, остальные на обе. В этот момент сработает мониторинг и инженер вручную выключит со всех проксей ту ноду, которая засбоила и введет ее обратно в строй. Никакие данные при этом не будут потеряны.

Если такая ситуация будет случаться, то мы переключим политику multipath c round-robin на failover, что бы все I/O шло через один md, до тех пор пока он жив.

mrsombre Mar 30 2011 at 12:39

узел с виртуалками получает данные с 2х проксей. одна из проксей считает, что одно из ее хранилищ сломалось, и работает (пишет и читает) только с одним из хранилищ. при этом вторая прокся считает, что оба хранилища рабочие. и работает (пишет и читает) с обоих из хранилищ. т.е. она может пытаться прочитать со второго хранилища то, что там должно быть, но чего нет в результате глюка на первой проксе. так? насколько я понимаю, теоретически оно может упасть за несколько секунд. раньше, чем любой из админов среагирует
мы уже на такие грабли несколько раз наступали. если ты пытаешь софт одной направленности героически натянуть на процессы для которых он не предназначен что-то обязательно перечеркнет всю идею, возможно на последнем из этапов, когда ты уже вложился в это гиблое дело

lohansky Mar 30 2011 at 12:47

Это очень хорошее замечание, спасибо. Подумаем как лучше это обработать.

lohansky Mar 31 2011 at 22:01

В общем исправили уязвимость. На VRT серверах переконфигурировали multipath, что бы использовал failover алгоритм (переключаться, только при падении пути), балансировка путей рандомная, активный путь выбирается при запуске VRT сервера.