Comments 36
В случае голосования уязвимым местом становится узел, который принимает решение. Очевидно, что ради надежности его надо делать будет по обкатанной технологии, где все проблемы вылизаны. Т.е. он заведомо медленее, чем прочая система.
Теперь давайте рассмотрим вопрос: что такое критический код. Допустим у нас сложная расчетная задача, какой код становится критическим важным? Очевидно весь. Но также очевидно, что если мы будем сравнивать каждую операцию, то скорость вычислений = скорость узла сравнения.
А если вспомнить, что из-за ограниченности точности представления чисел с плавающей запятой, у нас итоговый результат всех вычислений будет разный. И как в этом случае устраивать голосование?
Насколько я понимаю, БЭВМ спутников специально делаются большими (и поэтому медленными), чтобы минимизировать воздействие высокоэнергетического проникающего излучения. Когда у вас 14нм техпроцесс, один шальной протон может изменить результат операции, а если транзисторы у нас в десятки раз больше (и соответственно выше токи), то и воздействие в сотни раз ниже, потребуется одновременное попадание нескольких частиц.
Насчёт различий в результатах операций с плавающей точкой — если не ошибаюсь, это особенности работы ядер видеокарт, а не традиционных математических сопроцессоров, результаты вычислений которых детерминированы согласно IEEE 754.
В мире довольно много информационных систем. В них регулярно возникают сбои без всяких вспышек на Солнце. Теория вероятностей подсказывает нам, что вероятность, с которой подобный сбой совпадет по времени с какой-нибудь вспышкой, отлична от нуля (предполагаю, что попросту равняется единице). Поэтому делать выводы из единичного совпадения я бы не стал. :)
Хотя я голосую за всплеск солнечной активности.
Вполне рабочая версия, ещё пару лет назад с коллегой на пальцах считали, что раз в пару ECC как раз защищает от альфа частиц, а если сильная солнечная активность, то вполне в одном блоке два бита могло выбить — тогда проверка четности прошла и сбой. Так что вполне вероятное событие. Иначе для чего тогда ЕСС?
Может про электронную почту и скорость света? https://m.geektimes.ru/post/241460/
Чтобы достичь Земли от Солнца с упомянутой вами скорость света, требуются как раз эти восемь с чем-то минут!
Или я неправильно прочитал ваш комментарий. :)
The average rate of cosmic-ray soft errors is inversely proportional to sunspot activity. That is, the average number of cosmic-ray soft errors decreases during the active portion of the sunspot cycle and increases during the quiet portion. This counterintuitive result occurs for two reasons. The sun does not generally produce cosmic ray particles with energy above 1 GeV that are capable of penetrating to the Earth's upper atmosphere and creating particle showers, so the changes in the solar flux do not directly influence the number of errors. Further, the increase in the solar flux during an active sun period does have the effect of reshaping the Earth's magnetic field providing some additional shielding against higher energy cosmic rays, resulting in a decrease in the number of particles creating showers. The effect is fairly small in any case resulting in a ±7% modulation of the energetic neutron flux in New York City. Other locations are similarly affected.[citation needed]
Ну можно ведь защитить ram чем то вроде карбида вольфрама либо другими веществами, благо планки памяти на сегодня относительно маленькие(можно экранировать только сверху и торцов, для экономии). Должно выйти рентабельно для важных серверов, где простой — деньги.
ну а вообще и повера (т.к. это аикс) и их память имеют хорошую систему диагностики ошибок, так что влияние радиации довольно маловероятно — не видно ошибок железа.
Функционал Volume manager (VM) предлагаемый Veritas очень стабильный, и, как это говорят mature. На рынке давно, еще до рождения ASM и становления других VM. Несмотря на существующие проблемы (ошибки в ПО), которых немного — свою работу делает на отлично.
Можно почитать здесь о преимуществах Veritas (да и вообще VM) в сравнении со статической разбивкой дисков: habrahabr.ru/post/204240
Кросс-платформенный, у ASM этого нет. Для текущей платформы — без альтернатив.
У меня как раз в этот же день умер один из SSD в Ceph-кластере. Правда, ближе к вечеру, ЕМНИП.
Интересные корреляции.
Что подвесило систему: баг или вспышка на Солнце?