Комментарии 58
Хорошо бы увидеть статистику по производителям материнок не перечитывая документ по ссылке.
+3
«зато зависит от производителя материнской платы»
Извините, видимо я не силён в английском, но что-то я не нашёл указания на производителей материнских плат, и то, что от них зависит количество ошибок в памяти.
Извините, видимо я не силён в английском, но что-то я не нашёл указания на производителей материнских плат, и то, что от них зависит количество ошибок в памяти.
+1
И чем грозят эти ошибки?
0
Чем угодно. Это может быть ошибка в два раза в банковской транзакции, а может быть слегка битый пиксель на одном из каров при просмотре видео, это может уронить даже самую надежную, а может пройти абсолютно без какого бы то ни было влияния на работу системы. Как повезет… Своего рода «русская рулетка».
+7
Вот молодцы гуглецы! Помимо тотального порабощения мира делают достаточно полезные и условно беззатратные исследования. Не устаю ими восхищаться.
+3
«Our data covers the majority of machines in Google’s fleet and spans nearly 2.5 years, from January 2006 to June 2008.» Написано несколько по другому нежели то, что вы написали — «на десяти серверах Google». По моим данным в гугле несколько больше машин.
+5
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
Много тут явно левых данных.
Оверклокеры памят тестируют по 24 часа, 8Гб, и не обнаруживают ошибок, если система стабильна. Как это возможно? :-D
Никакого ECC.
Опять же, у меня дома 8Гб памяти, и аптайм — месяцы, без проблем.
Оверклокеры памят тестируют по 24 часа, 8Гб, и не обнаруживают ошибок, если система стабильна. Как это возможно? :-D
Никакого ECC.
Опять же, у меня дома 8Гб памяти, и аптайм — месяцы, без проблем.
0
НЛО прилетело и опубликовало эту надпись здесь
>Опять же, у меня дома 8Гб памяти, и аптайм — месяцы, без проблем.
Подавляющая масса данных и кода в памяти такого объёма на домашнем десктопе мало критична к единичным повреждениям.
Подавляющая масса данных и кода в памяти такого объёма на домашнем десктопе мало критична к единичным повреждениям.
0
Есть еще один момент: почти все low-end сервера (аренда <100$) — это не-ECC память.
0
А отличное обоснование отказов информационных систем между прочим.
Сервер упал из-за естественного радиоактивного излучения и вспышек сверхновых звезд :))
Сервер упал из-за естественного радиоактивного излучения и вспышек сверхновых звезд :))
0
>>на каждый модуль DIMM приходится 3751 ошибка в год
Если предположить, что их сервера работают круглосуточно, получаем 10 ошибок в сутки — по одной ошибке каждые 2,5 часа.
Допустим обычный рабочий ПК работает 8-10 часов в день, то при двух модулях памяти получаем около 4 ошибок в день. Не так уж и мало.
Если предположить, что их сервера работают круглосуточно, получаем 10 ошибок в сутки — по одной ошибке каждые 2,5 часа.
Допустим обычный рабочий ПК работает 8-10 часов в день, то при двух модулях памяти получаем около 4 ошибок в день. Не так уж и мало.
0
Забыл на 2 умножить, 4*2=8 ошибок в день — ежедневные 8 шансов получить BSOD или потерять важный документ.
0
Вот так ECC память сделала еще один шаг на пути к кофеваркам и порабощению мира.
Еще метод — просто ставить сильно больше оперативы, чтобы была больше вероятность попадания ошибки на незанятую область. Хотя результат пугающий — что-то уж больно много…
Еще метод — просто ставить сильно больше оперативы, чтобы была больше вероятность попадания ошибки на незанятую область. Хотя результат пугающий — что-то уж больно много…
-3
Любопытно, что это не первое исследование этих специалистов.
В 2007 году они также делали исследование о надежности и вероятностях выхода из строя жестких дисков.
www.usenix.org/events/fast07/tech/schroeder/schroeder_html/
labs.google.com/papers/disk_failures.pdf
По второму документу я делал у себя в блоге делал детальный обзор:
Насколько реальны приводимые производителями показатели MTBF?
blog.aboutnetapp.ru/archives/394
Приводит ли большая нагрузка к увеличению вероятности выхода дисков из строя?
blog.aboutnetapp.ru/archives/397
Насколько можно доверять SMART?
blog.aboutnetapp.ru/archives/413
Приводит ли повышенная температура среды к частому выходу дисков из строя?
blog.aboutnetapp.ru/archives/402
В 2007 году они также делали исследование о надежности и вероятностях выхода из строя жестких дисков.
www.usenix.org/events/fast07/tech/schroeder/schroeder_html/
labs.google.com/papers/disk_failures.pdf
По второму документу я делал у себя в блоге делал детальный обзор:
Насколько реальны приводимые производителями показатели MTBF?
blog.aboutnetapp.ru/archives/394
Приводит ли большая нагрузка к увеличению вероятности выхода дисков из строя?
blog.aboutnetapp.ru/archives/397
Насколько можно доверять SMART?
blog.aboutnetapp.ru/archives/413
Приводит ли повышенная температура среды к частому выходу дисков из строя?
blog.aboutnetapp.ru/archives/402
+3
Разве ECC сейчас не в каждом современном модуле памяти?!
0
НЛО прилетело и опубликовало эту надпись здесь
ECC DRAM (ECC — Error Correction Code) это специальный тип модулей DRAM, применяется главным образом в серверах, и имеет значительно более высокую цену.
0
Хорошо, «незнчительно» более высокую :)
Просто я давно не слежу за ценами на память, в то время, когда мне была интересна цена на память, разница была более существенной.
Просто я давно не слежу за ценами на память, в то время, когда мне была интересна цена на память, разница была более существенной.
+2
ECC медленнее
0
Неужели? ;)
0
www.cgtalk.ru/forum/archive/index.php/t-6717.html
"… память с ECC (проверка ошибок) работает чуть медленнее ~5% но стабильнее..."
www.gigabyte.ru/forum/viewtopic.php?t=13702
forums.ferra.ru/lofiversion/index.php/t483.html
"… к тому же работает она медленнее..."
yandex.ru/yandsearch?text=%D0%BF%D0%B0%D0%BC%D1%8F%D1%82%D1%8C+%D1%81+ecc+%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%B0%D0%B5%D1%82+%D0%BC%D0%B5%D0%B4%D0%BB%D0%B5%D0%BD%D0%BD%D0%B5%D0%B5&from=fx3&clid=46510&lr=225
"… память с ECC (проверка ошибок) работает чуть медленнее ~5% но стабильнее..."
www.gigabyte.ru/forum/viewtopic.php?t=13702
forums.ferra.ru/lofiversion/index.php/t483.html
"… к тому же работает она медленнее..."
yandex.ru/yandsearch?text=%D0%BF%D0%B0%D0%BC%D1%8F%D1%82%D1%8C+%D1%81+ecc+%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%B0%D0%B5%D1%82+%D0%BC%D0%B5%D0%B4%D0%BB%D0%B5%D0%BD%D0%BD%D0%B5%D0%B5&from=fx3&clid=46510&lr=225
0
ECC память часто требует специализированных комплектующих(CPU, материнка), что Европейские ДЦ, предлагающие дешевые серверы-десктопны, себе могут позволить далеко не всегда…
Вот именно серверные комплектующие и стоят дороже. А так да, если уже подбираешь что-нибудь клиенту на Intel/Supermicro в 1u корпус из готовой платформы, финансового смысла брать не ECC нет.
Вот именно серверные комплектующие и стоят дороже. А так да, если уже подбираешь что-нибудь клиенту на Intel/Supermicro в 1u корпус из готовой платформы, финансового смысла брать не ECC нет.
0
НЛО прилетело и опубликовало эту надпись здесь
Интересно, что они показали, что soft errors (это космические лучи и альфа распады, которые перезаряжают ячейки) не важны. А ведь на борьбу с фантомными soft errors много усилий в свое время тратили…
+2
Ну и про температуру тоже интересно, но у них методика не особо подходящая.
0
Есть ложь, большая ложь и статистика…
Достаточно несколько полностью сбойный модулей, и статистика круто изменится.
Достаточно несколько полностью сбойный модулей, и статистика круто изменится.
-3
НЛО прилетело и опубликовало эту надпись здесь
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Статистика сбоев DRAM от Google