blind_oracle Apr 6 2015 at 14:20

Бюджетное SAN-хранилище на LSI Syncro, часть 2

18 min

12K

Configuring Linux**nix*Virtualization*Data storage*Data storages*

Tutorial

+10

Comments 13

UFO just landed and posted this here

blind_oracle Apr 6 2015 at 14:52

1. Ceph это распределённная система, для неё нужно, по хорошему, много нод.
2. Ceph, насколько я понимаю, не поддерживает RAID5/6-like распределение блоков, только тупая репликация, что снижает ёмкость системы как минимум вдвое. Что при цене на SSD несколько расточительно (хотя тут можно использовать SATA диски, что несколько дешевле).
3. Общая сложность реализации на Ceph не уверен что будет ниже.

UFO just landed and posted this here

blind_oracle Apr 6 2015 at 15:42

Спасибо, не знал что они уже реализовали Erasure Code, вкусная штука.
И, я смотрю, гибко настраивается толерантность к отказу нод, можно выставить нужное количество (а не только RAID5/6 — 1 или 2).

Хотя, можно использовать ssd для томов журнала.

Там вроде бы и Cached Tiering есть — docs.ceph.com/docs/master/rados/operations/cache-tiering/
Это даже лучше чем просто журнал класть на SSD.

Единственное, конечно, что вы вмварь используете, а у него нет своего драйвера для rbd, придется городить адаптер в iscsi или fc.

Да, но этот как раз достаточно простой момент — экспортировать RBD наружу не сложно.
Может в следующей вмвари и поддержку его запилят, всякий OpenStack это нынче в тренде.

В следующем проекте попробую Ceph применить, давно руки чесались. А при наличии кеширования и Erasure Code последние сомнения растаяли :)

UFO just landed and posted this here

blind_oracle Apr 8 2015 at 18:20

Погонял наколеночный кластер Ceph из трёх ВМ + 1 клиент, очень интересно.
Использовал SSD CacheTier Pool + Erasure Code Pool под ним (правда тоже на SSD).

Всё достаточно просто и понятно, хотя редактирование CRUSH MAP могли бы сделать попроще (дамп, декомпиляция, изменение, компиляция, применение — много шагов).

Что не понравилось:
1. Нестабильная и достаточно низкая производительность на запись в моей конфигурации. Тут, конечно, много подводных камней и нужно будет погонять на реальном железе. Но даже тут у меня IOPS плавали от 0 до 2.5к, а скорость линейная от 30 до 180 Мбайт/сек.
2. Очень большая нагрузка на процессор OSD демонами (150-250% на каждом OSD-хосте) при случайном чтении всего-то на 14-15к IOPS. В этом случае Erasure Code не должен вроде как срабатывать, чего оно так проц жрёт не пойму.

В общем, штука стоящая, буду изучать дальше.

rekby Apr 7 2015 at 00:46

пробовал на 3-х нодах несколько лет назад ceph работал очень нестабильно по скорости.

Раз в несколько дней случались замирания дисков на несколько минут. По итогам общения в рассылке сделал вывод что это побочный эффект от профилактического сканирования данных на предмет порчи и их восстановления. Должен исчезать при большом количестве нод.

UFO just landed and posted this here

ftarasenko Apr 10 2015 at 10:54

А как вы Ceph планируете в vmware отдавать?

blind_oracle Apr 10 2015 at 10:58

Создаём RBD-image в кластере, мапим его на каком-либо хосте Ceph-клиенте как обычное блочное устройство (/dev/rbdX) и экспортируем его любым удобным способом (FC, iSCSI и т.д.)

ftarasenko Apr 10 2015 at 12:19

Ну то есть через прокси ноду.
А как же жалобы на нестабильность и производительность подобных решений?

UFO just landed and posted this here

ftarasenko Apr 10 2015 at 13:37

У опенстек есть интерфейс к варе, но у вари нет интерфейса к RBD.
В итоге мы опять возвращаемся к ISCSI прокси-ноде, стабильность которых у всех под вопросом.

Show the best of all time