Как стать автором
Обновить

Комментарии 58

Хорошо бы увидеть статистику по производителям материнок не перечитывая документ по ссылке.
В документе нет названий :(
Видимо специально, но я думаю гугл отошлет информацию производителям
Это научное исследование, а не рыночный обзор.
«зато зависит от производителя материнской платы»

Извините, видимо я не силён в английском, но что-то я не нашёл указания на производителей материнских плат, и то, что от них зависит количество ошибок в памяти.
И чем грозят эти ошибки?
Чем угодно. Это может быть ошибка в два раза в банковской транзакции, а может быть слегка битый пиксель на одном из каров при просмотре видео, это может уронить даже самую надежную, а может пройти абсолютно без какого бы то ни было влияния на работу системы. Как повезет… Своего рода «русская рулетка».
-_- Ксо…
* на одном из кадров
* уронить даже самую надежную систему
У меня сегодня умерла Win7. Траур, марш, цветы, скорбим.
Думаете, что из-за ошибки в памяти? :)
Пусть сгинет в века тот банк, что использует память без ECC
про банк-клиент слышали?
про контроль на стороне сервера слышали?
при чём тут сервер, если сбой на клиентском компьютере?
как испугается клиент, когда увидит не ту сумму, как удивиться клиент, когда ему предложат подтвердить не ту сумму, какой ужас
Вот молодцы гуглецы! Помимо тотального порабощения мира делают достаточно полезные и условно беззатратные исследования. Не устаю ими восхищаться.
НЛО прилетело и опубликовало эту надпись здесь
«Our data covers the majority of machines in Google’s fleet and spans nearly 2.5 years, from January 2006 to June 2008.» Написано несколько по другому нежели то, что вы написали — «на десяти серверах Google». По моим данным в гугле несколько больше машин.
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
Много тут явно левых данных.
Оверклокеры памят тестируют по 24 часа, 8Гб, и не обнаруживают ошибок, если система стабильна. Как это возможно? :-D
Никакого ECC.

Опять же, у меня дома 8Гб памяти, и аптайм — месяцы, без проблем.
НЛО прилетело и опубликовало эту надпись здесь
Место для ошибок остается, и достаточно. Перегрев процессора, чипсета — вот вам и ошибки даже с ECC.
НЛО прилетело и опубликовало эту надпись здесь
Кроме того, классический ECC исправляет только одиночные и обнаруживает двойные ошибки.
>Опять же, у меня дома 8Гб памяти, и аптайм — месяцы, без проблем.

Подавляющая масса данных и кода в памяти такого объёма на домашнем десктопе мало критична к единичным повреждениям.
«Оверклокерские» тесты памяти критичны даже к одному искаженному биту…
«Оверклокерские» тесты памяти критичны даже к одному искаженному биту…
Есть еще один момент: почти все low-end сервера (аренда <100$) — это не-ECC память.
Именно, поэтому очень жаль, что тот же Hetzer продает серверы без ECC :(

Мы собираемся взять сервер (вместо keyweb) в Serverloft только из-за ECC-памяти
А отличное обоснование отказов информационных систем между прочим.

Сервер упал из-за естественного радиоактивного излучения и вспышек сверхновых звезд :))
>>на каждый модуль DIMM приходится 3751 ошибка в год
Если предположить, что их сервера работают круглосуточно, получаем 10 ошибок в сутки — по одной ошибке каждые 2,5 часа.
Допустим обычный рабочий ПК работает 8-10 часов в день, то при двух модулях памяти получаем около 4 ошибок в день. Не так уж и мало.
Забыл на 2 умножить, 4*2=8 ошибок в день — ежедневные 8 шансов получить BSOD или потерять важный документ.
Ну да. Только вот сами шансы эти — в целом довольно маленькие. С другой стороны — если компьютер занят исключительно тем, что считает критически важные данные, то вероятность опасной ошибки может быть довольно высока.
Вот так ECC память сделала еще один шаг на пути к кофеваркам и порабощению мира.

Еще метод — просто ставить сильно больше оперативы, чтобы была больше вероятность попадания ошибки на незанятую область. Хотя результат пугающий — что-то уж больно много…
Не поможет, больше оперативы — больше ошибок. :) Так что только ECC :)
Любопытно, что это не первое исследование этих специалистов.
В 2007 году они также делали исследование о надежности и вероятностях выхода из строя жестких дисков.

www.usenix.org/events/fast07/tech/schroeder/schroeder_html/

labs.google.com/papers/disk_failures.pdf

По второму документу я делал у себя в блоге делал детальный обзор:

Насколько реальны приводимые производителями показатели MTBF?
blog.aboutnetapp.ru/archives/394

Приводит ли большая нагрузка к увеличению вероятности выхода дисков из строя?
blog.aboutnetapp.ru/archives/397

Насколько можно доверять SMART?
blog.aboutnetapp.ru/archives/413

Приводит ли повышенная температура среды к частому выходу дисков из строя?
blog.aboutnetapp.ru/archives/402
Разве ECC сейчас не в каждом современном модуле памяти?!
НЛО прилетело и опубликовало эту надпись здесь
ECC DRAM (ECC — Error Correction Code) это специальный тип модулей DRAM, применяется главным образом в серверах, и имеет значительно более высокую цену.
Ну, так уж и значительно более высокую?
ECC Kingston ValueRAM DIMM 2 GB ECC DDR2-800 Kit — € 49,99
Non-ECC Kingston ValueRAM DIMM 2 GB DDR2-800 Kit — € 44,49
Хорошо, «незнчительно» более высокую :)
Просто я давно не слежу за ценами на память, в то время, когда мне была интересна цена на память, разница была более существенной.
ECC медленнее
Неужели? ;)
ECC память часто требует специализированных комплектующих(CPU, материнка), что Европейские ДЦ, предлагающие дешевые серверы-десктопны, себе могут позволить далеко не всегда…

Вот именно серверные комплектующие и стоят дороже. А так да, если уже подбираешь что-нибудь клиенту на Intel/Supermicro в 1u корпус из готовой платформы, финансового смысла брать не ECC нет.
всё понятно
НЛО прилетело и опубликовало эту надпись здесь
Интересно, что они показали, что soft errors (это космические лучи и альфа распады, которые перезаряжают ячейки) не важны. А ведь на борьбу с фантомными soft errors много усилий в свое время тратили…
Ну и про температуру тоже интересно, но у них методика не особо подходящая.
Есть ложь, большая ложь и статистика…

Достаточно несколько полностью сбойный модулей, и статистика круто изменится.
Это, если что — я просто предположил, как можно круто поменять статистику, учитывая сколько (и правильных, и ошибочных) операций с памятью производится на серверах 24/7.
На большой популяции любые резко выпадающие из общей тенденции результаты легко нивелируются большим количеством общих данных.
Подтверждаю. Вычисление «аномального эксперта» довольно простая статистическая задача.
НЛО прилетело и опубликовало эту надпись здесь
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории