AccelStor Jan 24 2019 at 10:18

AccelStor – собственный взгляд на работу All Flash

10 min

2.5K

AccelStor Ltd. corporate blogIT Infrastructure*Virtualization*SAN*Data storages*

Comments 16

Smasher Jan 26 2019 at 22:27

Из текста не особо понятно как происходит защита данных на дисках в рамках одной ноды.

Т.е. поступившие блоки данных объединяются в цепочки, кратные «страницам», и только потом записываются на SSD.

Все промежуточные действия над данными алгоритмом FlexiRemap выполняются в оперативной памяти контроллера. Но массив выдаст подтверждение хосту об успешном завершении операции только после физической записи на SSD.

Как при использовании подхода описанного выше получается получить низкие задержки?
Объединение данных в цепочки подразумевает накопление этих данных в кэше. При условии, что подтверждение хост получает только после фактической записи данных на SSD, то задержки на запись не могут быть низкими.

Что делать если производительности пары контроллеров не хватает? Какие варианты масштабирования?

AccelStor Jan 28 2019 at 09:19

Если формально подходить к вопросу, то да, на некоторое время данные помещаются в ОЗУ ноды. Но подтверждение записи выдается только после физического размещения блоков на накопителях. Поэтому такой подход называют «без использования кэша». Низкие задержки достигаются за счет скорости обработки блоков ввода/вывода.
Защита данных в рамках ноды достигается за счет использования контрольных сумм (фактически — минус объем одного SSD в группе). Но алгоритм иной, не как в RAID.
Система пока что не масштабируется выше двух контроллеров. Но разработки в этом направлении ведутся.

Smasher Jan 29 2019 at 17:09

Для чего данном случае контрольные суммы? Это erasure coding? Тогда какая схема защиты используется?
Контрольные суммы могут служить вообще для проверки целостности записанных блоков T10-DIF, но при этом никак не обеспечивать защиту данны при выходы из строя SSD.
EC опять-таки накладывает задержки, особенно при записи мелкими блоками.

Низкие задержки достигаются за счет скорости обработки блоков ввода/вывода.

Это не ответ. Объединение данных в цепочки подразумевает храние их в памяти. По вашему же тексту, подтверждения хосту нет пока данные не попали на SSD.

AccelStor Jan 29 2019 at 17:19

Это не ответ. Объединение данных в цепочки подразумевает храние их в памяти. По вашему же тексту, подтверждения хосту нет пока данные не попали на SSD.

Паспортное значение latency для SSD ~40us. По приведенным тестам выше у массива при записи latency ~90us. Это и есть накладные расходы на формирование цепочек из поступающих блоков пока данные в ОЗУ ноды, но еще не на накопителе.

Контрольные суммы могут служить вообще для проверки целостности записанных блоков T10-DIF, но при этом никак не обеспечивать защиту данны при выходы из строя SSD.

Т.е. вы не верите, что выдернув любой SSD, массив не развалится?

Smasher Jan 30 2019 at 00:13

Забавная аргументация. Вы написали пост, в котором вроде как объясняете технологические особенности продукта. При этом на конкретные вопросы про принципы работы ответить не можете.
Каким образом у нас 890 микросекунд превращаются в 90 микросекунд?

AccelStor Jan 30 2019 at 09:15

Каким образом у нас 890 микросекунд превращаются в 90 микросекунд?

Пардон, нулем ошибся. Да, 890us задержка

ganinmv Jan 28 2019 at 09:10

SSD Enterprise класса. Чаще всего с интерфейсом SATA, т.к. работы с двумя контроллерами не требуется. Имеются также модели All Flash массивов на базе NVMe дисков.

Хочется услышать уточнения по этим моментам? То есть вы используете обычные Sata диски и ставите переходник Sata<-->SAS и называете это Enterprise?

Умеет ли СХД NVMe over Fibre Channel?

AccelStor Jan 28 2019 at 09:31

В серверном сегменте под «обычными» SSD понимают консьюмерские/десктопные модели (аля Kingston или A-Data). Enterprise SSD — это SSD, рассчитанные на серьезные нагрузки, например, Intel, HGST и пр. Диски подключаются напрямую без каких-либо переходников SATA-SAS.

Умеет ли СХД NVMe over Fibre Channel?

Текущие модели нет. Сейчас активно разрабатывается решение NVMe-oF

ganinmv Jan 28 2019 at 10:54

Умеет ли СХД NVMe over Fibre Channel?

Текущие модели нет. Сейчас активно разрабатывается решение NVMe-oF

Так это не одно и тоже разве?

AccelStor Jan 28 2019 at 11:08

Не совсем. В качестве транспорта не обязательно используется Fibre Channel.

ganinmv Jan 31 2019 at 22:23

Интересная у вас железка. Мы можем рассмотреть ваше решение для задач нашей компании. Если будет интересно сотрудничество с российским ретейлом напишите мне в личку.

vtolstov Feb 7 2019 at 15:44

А зачем проверка пульса по ethernet? Латенси больше и не ясно, допустим IB не работает, а по ETH все ок. Что дальше?

AccelStor Feb 7 2019 at 16:44

Основной канал для обмена между нодами конечно же IB. Но его как-то нужно дублировать «за недорого». Пульс же все равно с некоторыми интервалами измеряется, latency в Ethernet этому не помеха.
Если IB выйдет из строя, одна из нод перейдет в offline, т.к. синхронизация будет недоступна. Если же Ethernet сломается, то просто alarm.

vtolstov Feb 7 2019 at 17:36

Вы не ответили на вопрос. ИБ56 Гб, эзернет 1гб или 10? что дублирует в итоге то?
Я знаю про распределение контрол трафика и дата. Но не очень пока понимаю суть у вас.
Более того с иб можно и qos выделить для контрол трафика.

AccelStor Feb 8 2019 at 09:20

Еще раз. Основной канал обмена информацией между нодами — это IB 56G. Канал теоретически может выйти из строя. Об этом нужно как-то узнать. Нужен резерв исключительно для проверки пульса. В качестве такого резерва используется 1G Ethernet.

vtolstov Feb 7 2019 at 17:38

Если эзернет только для ссш, тогда не ясно к чему про дублировать за недорого.