Pull to refresh
190.21
ua-hosting.company
Хостинг-провайдер: серверы в NL до 300 Гбит/с

Надёжность Flash–памяти: ожидаемое и неожиданное. Часть 2. XIV конференция ассоциации USENIX. Технологии хранения файлов

Reading time13 min
Views5K
Original author: Бьянка Шрёдер, Рахав Ладжисетти, Ариф Мерчант
Надёжность Flash–памяти: ожидаемое и неожиданное. Часть 1. XIV конференция ассоциации USENIX. Технологии хранения файлов

4.2.2. RBER и возраст дисков (без учета циклов PE).


На Рисунке 1 показана значительная корреляция между RBER и возрастом, который равен количеству месяцев эксплуатации диска в полевых условиях. Однако это может быть ложной корреляцией, так как вероятно, что более старые диски имеют большее количество PE и поэтому RBER в большей степени взаимосвязан с циклами PE.

Для того, чтобы исключить влияние возраста на износ, вызываемый циклами PE, мы сгруппировали все месяцы эксплуатации в контейнеры, используя децили распределения цикла PE как отсечку между контейнерами, например, первый контейнер содержит все месяцы эксплуатации диска до первого дециля распределения цикла PE, и так далее. Мы проверили, что внутри каждого контейнера корреляция между циклами PE и RBER довольно незначительна (поскольку каждый контейнер охватывает только малый диапазон циклов PE), а затем вычислили коэффициент корреляции между RBER и возрастом диска отдельно для каждого контейнера.

Мы проводили этот анализ отдельно для каждой модели, потому что любые наблюдаемые корреляции обусловлены не различиями между младшей и старшей моделью, а исключительно возрастом дисков одной и той же модели. Мы наблюдали, что даже после ограничения эффекта влияния циклов PE описанным выше способом, для всех моделей дисков все еще существовала значимая корреляция между количеством месяцев эксплуатации диска в полевых условиях и его RBER (коэффициенты корреляции имели значение от 0,2 до 0,4).


Рис. 3. Зависимость между RBER и количеством циклов PE для новых и старых дисков показывает, что возраст диска влияет на величину RBER независимо от циклов PE, вызванных износом.

Мы также графически визуализировали влияние возраста привода путем разделения дней эксплуатации диска в «молодом» возрасте до 1 года и дней эксплуатации диска в возрасте старше 4 лет, после чего строили графики зависимости RBER каждой группы от количества циклов PE. На Рисунке 3 приведены эти результаты для модели привода MLC-D. Мы видим заметную разницу значений коэффициента RBER между группами старых и новых дисков на протяжение всех значений циклов PE.

Отсюда мы сделали вывод, что возраст, измеряемый днями эксплуатации дисков в полевых условиях, оказывает значительное влияние на RBER, независимо от износа ячеек памяти вследствие воздействия циклов PE. Это означает, что большую роль в физическом износе диска играют другие причины, например, старение кремния.

4.2.3. RBER и рабочая нагрузка.


Считается, что битовые ошибки вызваны одним из четырех механизмов:

  1. ошибки хранения Retention errors, когда ячейка памяти со временем утрачивает данные
    ошибки нарушения чтения Read disturb errors, при которых операция чтения повреждает содержимое соседней ячейки;
  2. ошибки нарушения записи Write disturb errors, при которых операция чтения повреждает содержимое соседней ячейки;
  3. ошибки неполного стирания Incomplete erase errors, когда операция стирания не полностью удаляет содержимое ячейки.


Ошибки, относящиеся к последним трем типам (read disturb, write disturb, incomplete erase) коррелируют с рабочей нагрузкой, поэтому понимание корреляции между RBER и рабочей нагрузкой помогают нам понять распространенность различных механизмов ошибок. В недавнем исследовании «Широкомасштабное изучение сбоев флэш-памяти в полевых условиях» (MEZA, J., WU, Q., KUMAR, S., MUTLU, O. «A large-scale study of flash memory failures in the field». In Proceedings of the 2015 ACM SIGMETRICS International Conference on Measurement and Modeling of Computer Systems, New York, 2015, SIGMETRICS ’15, ACM, стр. 177–190) сделан вывод о том, что в полевых условиях преобладают ошибки хранения, в то время как ошибки нарушения чтения довольно незначительны.

На Рисунке 1 показана существенная зависимость между значением RBER в определенном месяце эксплуатации диска и количеством операций чтения, записи и стирания в том же месяце для некоторых моделей (например, коэффициент корреляции выше 0,2 для модели MLC — B и выше 0,6 для модели SLC-B). Однако возможно, это ложная корреляция, так как месячная рабочая нагрузка может быть связана с общим количеством циклов PE.

Мы использовали ту же методику, которая описана в разделе 4.2.2, для изоляции последствий рабочей нагрузки от воздействия циклов PE путем обособления месяцев эксплуатации привода, основанных на предшествующих циклах PE, а затем определяли коэффициенты корреляции отдельно для каждого контейнера.

Мы увидели, что корреляция между числом операций чтения в определенном месяце эксплуатации диска и значение RBER в этом же месяце сохраняется для моделей MLC-B и SLC-B, даже при ограничении циклов PE. Мы также повторили аналогичный анализ, где исключили эффект воздействия операций чтения на количество параллельных операций записи и стирания, и пришли к выводу, что корреляция между RBER и числом операций чтения сохраняется для модели SLC-B.

На Рисунке 1 также отображена корреляция между RBER и операциями записи и стирания, поэтому мы повторили тот же самый анализ для операций чтения, записи и стирания. Мы пришли к выводу, что при ограничении влияния циклов PE и операций чтения, зависимости между значением RBER и количеством операций записи и стирания не существует.

Таким образом, существуют модели дисков, где ошибки нарушения чтения оказывают значительное влияние на RBER. С другой стороны, нет никаких доказательств того, что на RBER влияют ошибки нарушения записи и ошибки неполного стирания.

4.2.4 RBER и литография.


Различия в размере объектов могут частично объяснить различия в значениях RBER у моделей дисков, использующих одинаковую технологию, т. е. MLC или SLC. (см. Таблицу 1, где приведен обзор литографии различных моделей, участвующих в данном исследовании).

Например, 2 модели SLC с литографией 34нм (модели SLC-A и SLC-D) имеют RBER, который на порядок выше, чем у 2-х моделей с микроэлектронной литографией 50 нм (модели SLC-B и SLC-C). В случае моделей MLC, только модель 43нм (MLC-B) имеет медианный RBER, который на 50% выше, чем у 3-х других моделей с литографией 50 нм. Более того, эта разница в RBER увеличивается в 4 раза по мере износа дисков, как показано на Рисунке 2. Наконец, более тонкая литография может объяснить более высокий RBER у приводов eMLC в сравнении с приводами MLC. В целом, мы получили четкие доказательства того, что литография влияет на RBER.

4.2.5. Наличие других ошибок.


Мы исследовали взаимосвязь между RBER и другими видами ошибок, например, неисправимыми ошибками, ошибками тайм-аута и т. д., в частности, станет ли значение RBER выше через месяц влияния других типов ошибок.

На Рисунке 1 показано, что в то время как значение RBER за предыдущий месяц позволяет прогнозировать будущие значения RBER (коэффициент корреляции выше 0,8), между неисправимыми ошибками и RBER не существует существенной корреляции (крайняя справа группа элементов на рис.1). Для других типов ошибок коэффициент корреляции еще ниже (на рисунке не отображено). Мы продолжили исследование взаимосвязи между RBER и неисправимыми ошибками в разделе 5.2 данной статьи.

4.2.6. Влияние других факторов.


Мы нашли доказательства того, что существуют факторы, оказывающие значительное влияние на RBER и которые не смогли учесть полученные нами данные. В частности, мы заметили, что RBER для конкретной модели диска варьируется в зависимости от кластера, в котором развернут диск. Наглядным примером является Рисунок 4, на котором показана зависимость RBER от циклов PE для приводов модели MLC-D в трех разных кластерах (пунктирные линии) и сравнение её с RBER для этой модели относительно обще количества дисков (сплошная линия). Мы считаем, что эти различия сохраняются, даже когда мы ограничиваем влияние таких факторов, как возраст диска или количество операций чтения.

Одним из возможных объяснений этого фактора служат различия типа рабочей нагрузки в разных кластерах, поскольку мы наблюдаем, что кластеры, рабочая нагрузка которых имеет самые высокие коэффициенты считывания/записи, характеризуются самым высоким RBER.


Рис. 4 а), b). Медианные значения RBER в зависимости от циклов РЕ по трем различным кластерам и зависимость коэффициента считывания/записи от количества циклов РЕ по трем различным кластерам.

Например, на Рисунке 4 (b) показаны коэффициенты чтения/записи разных кластеров для модели привода MLC-D. Однако соотношение чтения/записи не объясняет различия между кластерами для всех моделей, поэтому могут быть и другие факторы, которые наши данные не учитывают, например, факторы воздействия окружающей среды или другие внешние параметры рабочей нагрузки.

4.3. Коэффициент RBER во время ускоренных испытаний на долговечность.


Большинство научных работ, а также тесты, проводимые при закупке носителей в промышленных масштабах, прогнозируют надежность устройств в полевых условиях на основе результатов ускоренных испытаний на долговечность. Мы решили разобраться, насколько результаты таких тестов соответствуют практическому опыту эксплуатации твердотельных носителей информации.
Анализ результатов испытаний, проведенных по общей методике ускоренных испытаний для оборудования, поставляемого в дата-центры Google, показал, что полевые значения RBER значительно выше прогнозируемых. Например, для модели eMLC-a медиана RBER для дисков, эксплуатируемых в полевых условиях (на конец испытаний количество циклов PE достигало 600), составила 1e-05, в то время как по результатам предварительного ускоренного тестирования такая величина RBER должна была бы соответствовать более чем 4000 циклов PE. Это указывает на то, что очень сложно точно предсказать значение RBER в полевых условиях на основе оценок RBER, полученных в результате лабораторных тестов.

Мы также отметили, что некоторые типы ошибок достаточно сложно воспроизвести во время ускоренных испытаний. Например, в случае модели MLC-B, почти у 60% приводов в полевых условиях возникают неисправляемые ошибки и у почти 80% приводов появляются поврежденные блоки. Однако во время ускоренных испытаний на долговечность ни у одного из шести устройств не возникли какие-либо неисправляемые ошибки, пока диски не достигли более чем трехкратного превышения лимита циклов PE. Для моделей eMLC неисправляемые ошибки в полевых условиях возникли больше чем у 80% дисков, в то время как при проведении ускоренного тестирования такие ошибки возникали по достижении 15000 циклов PE.

Мы также рассмотрели RBER, описываемый в предыдущей исследовательской работе, который основывался на экспериментах в контролируемой среде, и пришли к выводу, что диапазон разброса значений чрезвычайно высок. Например, Л.М. Групп и другие в своих работах 2009 -2012 годов указывают значения RBER для дисков, которые близки к достижению предельных значений циклов PE. Например, для устройств SLC и MLC с размером литографии, аналогичной используемой в нашей работе (25-50nm), значение RBER колеблется от 1e-08 до 1e-03, причем для большинства испытываемых моделей приводов значение RBER было близко к 1e-06.

В нашем исследовании три модели дисков, которые достигли лимита циклов PE, имели RBER в диапазоне от 3e-08 до 8e-08. Даже принимая во внимание, что наши числа являются нижними границами и в абсолютно худшем случае могут принимать значения в 16 раз больше, или же принимая во внимание 95-й процентиль RBER, полученные нами значения всё равно значительно ниже.

В целом, в то время как реальные значения RBER в полевых условиях выше прогнозных значений, основанных на ускоренных испытаниях на долговечность, они все же ниже, чем большинство RBER для аналогичных устройств, о которых сообщается в других исследовательских работах, и которые вычислены на основе лабораторных тестов. Это означает, что не стоит полагаться на прогнозные значения RBER в полевых условиях, которые были получены на основе результатов ускоренных испытаний на долговечность.

5. Неисправляемые ошибки.


Учитывая широкое распространение неисправляемых ошибок (UE), которые рассматривались в разделе 3 данной статьи, в данном разделе мы более подробно изучаем их характеристики. Мы начинаем с обсуждения того, какую метрику использовать для измерения UE, рассматриваем, какова их взаимосвязь с RBER и как на UE влияют различные факторы.

5.1. Почему коэффициент UBER не имеет смысла.


Стандартной метрикой, характеризующей неисправляемые ошибки, является коэффициент неисправляемых битовых ошибок UBER, то есть отношение числа неисправляемых битовых ошибок к общему числу прочитанных битов.

Эта метрика неявно допускает, что число неисправляемых ошибок каким-то образом привязано к числу прочитанных битов, а значит, должно быть нормализовано этим числом.

Данное предположение справедливо для исправляемых ошибок, где обнаруживается, что число ошибок, наблюдаемых в данный месяц, сильно коррелирует с количеством операций чтения за тот же период времени (коэффициент корреляции Спирмена больше 0.9). Причина такой сильной корреляции в том, что даже один поврежденный бит, пока он исправляем с помощью ECC, будет продолжать увеличивать количество ошибок с каждой обращенной к нему операцией считывания, так как оценка ячейки, содержащей поврежденный бит, не исправляется немедленно при обнаружении ошибки (диски только периодически переписывают страницы с поврежденными битами).

То же самое допущение не работает в отношении неисправляемых ошибок. Неисправляемая ошибка исключает дальнейшее использование поврежденного блока, поэтому обнаруженный однажды, такой блок в дальнейшем не будет влиять на количество ошибок.

Для официального подтверждения этого предположения мы использовали различные метрики для измерения отношения между числом операций чтения в данном месяце эксплуатации диска и числом неисправимых ошибок за тот же период времени, в том числе различные коэффициенты корреляции (Пирсона, Спирмена, Кендалла), а также визуальное изучение графиков. В дополнение к количеству неисправляемых ошибок мы также рассмотрели частоту инцидентов с неисправляемыми ошибками (например, вероятность того, что диск будет иметь по крайней мере один такой инцидент в течение определенного периода времени) и их связь с операциями чтения.
Мы не нашли доказательств корреляции между количеством считываний и количеством неисправимых ошибок. Для всех моделей приводов коэффициенты корреляции были ниже 0.02, и графики не показали никакого увеличения UE при росте числа операций чтения.

В разделе 5.4 данной статьи мы рассматриваем, что операции записи и стирания также не имеют никакой связи с неисправляемыми ошибками, поэтому альтернативное определение UBER, которое нормализуется операциями записи или стирания вместо операций считывания, не имеет никакого значения.

Поэтому мы заключаем, что UBER не является значимой метрикой, за исключением, возможно, тестирования в контролируемых средах, где число операций считывания задается экспериментатором. Если же UBER используется в качестве метрики во время полевых испытаний, он будет искусственно снижать частоту ошибок для дисков с высоким числом считываний и искусственно завышать такую частоту для дисков с низким числом считываний, поскольку неисправляемые ошибки происходят независимо от количества операций считывания.

5.2. Неисправляемые ошибки и RBER.


Актуальность RBER объяснима тем, что он служит мерой определения общей надежности привода, в частности, исходя из вероятности возникновения неисправляемых ошибок. В своей работе Н. Миелке и другие в 2008 году первыми предложили определять ожидаемую частоту неисправимых ошибок как функцию RBER. С тех пор многие системные разработчики использовали аналогичные методы, например, оценку ожидаемой частоты неисправляемых ошибок в зависимости от RBER и типа ECC.

Цель этого раздела — охарактеризовать, насколько хорошо RBER прогнозирует неисправляемые ошибки. Начнем с Рисунка 5а, на котором приведены графики медианного значения RBER для ряда моделей приводов первого поколения, относительно к доле дней их эксплуатации, в течение которых возникали неисправляемые ошибки UE. Следует учесть, что некоторые из 16 моделей, приведенных на графике, отсутствуют в Таблице 1 по причине недостатка аналитической информации.


Рис. 5а. Взаимосвязь медианного RBER с неисправляемыми ошибками для различных моделей приводов.


Рис. 5b. Взаимосвязь медианного RBER с неисправляемыми ошибками для различных приводов одной и той же модели.

Напомним, что все модели в рамках одного поколения используют одинаковый механизм ECC, так что различия между моделями не зависят от различий ECC. Мы не увидели корреляции между RBER и инцидентами UE. Мы создали такой же график для 95-го процентиля RBER в сравнении с вероятностью UE и снова не увидели никакой корреляции.

Далее мы повторили анализ при детализации отдельных дисков, т. е. попытались выяснить, существуют ли диски, где более высокому значению RBER соответствует более высокая частота UE. В качестве примера на Рисунке 5b приводятся графики медианного значения RBER для каждого привода модели MLC-c в сравнении с количеством UE (результаты аналогичны полученным для 95-го процентиля RBER). Опять же, мы не увидели никакой корреляции между RBER и UE.

Наконец, мы выполнили более точный временной анализ для выяснения, будут ли месяцы эксплуатации приводов с более высоким RBER соответствовать месяцам, в течение которых возникали UE. На Рисунке 1 уже указывалось, что коэффициент корреляции между неисправляемыми ошибками и RBER очень низок. Мы также экспериментировали с различными способами построения графиков вероятности UE как функции RBER и не нашли никаких признаков корреляции.

Таким образом, мы пришли в выводу, что RBER является ненадежным показателем для прогнозирования UE. Это может означать, что механизмы сбоев, приводящие к RBER, отличаются от механизмов, приводящих к возникновению неисправляемых ошибок (например, ошибки, содержащиеся в отдельных ячейках, против более крупных проблем, возникающих с целым устройством).

5.3. Неисправляемые ошибки и износ.


Поскольку износ является одной из основных проблем флэш-памяти, на Рисунке 6 показана суточная вероятность возникновения неисправляемых ошибок привода в зависимости от циклов PE.


Рис 6. Суточная вероятность возникновения неисправляемых ошибок привода в зависимости от циклов PE.

Мы отмечаем, что вероятность UE непрерывно увеличивается с возрастом привода. Однако, как и в случае с RBER, увеличение происходит медленнее, чем обычно предполагается: графики показывают что UE растут с циклами PE линейно, а не экспоненциально.

Два вывода, которые мы сделали для RBER, также применимы к UE: во-первых, нет четкого увеличения возможности ошибок после достижения предельного количества циклов PE, например, на Рисунке 6 для модели MLC-D, чей лимит циклов PE равен 3000. Во-вторых, частота возникновения ошибок варьируется у разных моделей даже внутри одного класса. Тем не менее, эти различия не такие большие, как для RBER.

Наконец, в подтверждение наших выводов, приведенных в разделе 5.2, мы нашли, что в пределах одного класса моделей (MLC против SLC) модели с самыми низкими значениями RBER для данного количества циклов PE не обязательно те, что имеют самую низкую вероятность возникновения UE. Например, за 3000 циклов PE приводы модели MLC-D имели значения RBER в 4 раза ниже, чем модели MLC — B, однако вероятность UE при одинаковом количестве циклов PE у моделей MLC-D была немного выше, чем у моделей MLC-B.


Рис 7. Месячная вероятность возникновения неисправляемых ошибок привода как функция зависимости от наличия предыдущих ошибок различного типа.

5.4. Неисправляемые ошибки и рабочая нагрузка.


По тем же причинам, по каким рабочая нагрузка может повлиять на RBER (см. раздел 4.2.3), можно ожидать, что она также окажет воздействие и на UE. Например, поскольку мы наблюдали, что ошибки нарушения чтения влияют на RBER, то операции чтения также могут увеличить вероятность неисправляемых ошибок.

Мы провели детальное исследование влияния рабочей нагрузки на UE. Однако, как отмечалось в разделе 5.1, мы не нашли взаимосвязи между UE и количеством операций чтения. Мы повторили тот же анализ для операций записи и стирания и снова не увидели никакой корреляции.
Обратите внимание, что на первый взгляд, здесь можно увидеть противоречие нашему предыдущему наблюдению, согласно которому неисправляемые ошибки коррелируют с циклами PE. Следовательно, вполне можно было бы ожидать и корреляцию с числом операций записи и стирания.

Однако в нашем анализе влияния циклов PE мы сравнивали число неисправляемых ошибок за данный месяц с итоговым количеством циклов PE, который привод испытал на протяжении всей своей жизни на данный момент для того, чтобы измерить эффект износа. Изучая влияние рабочей нагрузки, мы рассматривали месяцы эксплуатации привода, в течение которых происходило наибольшее количество операций чтения / записи / стирания в определенный месяц, который также имел более высокий шанс возникновения неисправляемых ошибок, т. е. не учитывали суммарное количество операций чтения / записи / стирания.

В результате мы пришли к выводу, что ошибки нарушения чтения, ошибки нарушения записи и ошибки неполного стирания не являются основными факторами развития неисправляемых ошибок.

Спасибо, что остаётесь с нами. Вам нравятся наши статьи? Хотите видеть больше интересных материалов? Поддержите нас, оформив заказ или порекомендовав знакомым, 30% скидка для пользователей Хабра на уникальный аналог entry-level серверов, который был придуман нами для Вас: Вся правда о VPS (KVM) E5-2650 v4 (6 Cores) 10GB DDR4 240GB SSD 1Gbps от $20 или как правильно делить сервер? (доступны варианты с RAID1 и RAID10, до 24 ядер и до 40GB DDR4).

Dell R730xd в 2 раза дешевле? Только у нас 2 х Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 ТВ от $199 в Нидерландах! Dell R420 — 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB — от $99! Читайте о том Как построить инфраструктуру корп. класса c применением серверов Dell R730xd Е5-2650 v4 стоимостью 9000 евро за копейки?
Tags:
Hubs:
+22
Comments12

Articles

Information

Website
ua-hosting.company
Registered
Founded
Employees
11–30 employees
Location
Латвия
Representative
HostingManager