Pull to refresh

Comments 36

Неожиданно. Интерсно, станет ли это фундаментальной проблемой по дальнейшему наращиванию мощностей
Фундаментальной — вряд ли, так как относительно легко обходится тройным дублированием критически важных систем. До тех пор, пока сбой будет возникать лишь в одной копии системы — «голосованием большинства» сбой будет нивелирован. Многоядерные процессоры, например, могут быть сконфигурированы для дублирования ядер, выполняющих критический код, незадействованными ядрами.
Увы, если бы все было бы так просто, то БЭВМ спутников по производительности мало бы уступали наземным. По факту сейчас они на уровне первых пней.

В случае голосования уязвимым местом становится узел, который принимает решение. Очевидно, что ради надежности его надо делать будет по обкатанной технологии, где все проблемы вылизаны. Т.е. он заведомо медленее, чем прочая система.

Теперь давайте рассмотрим вопрос: что такое критический код. Допустим у нас сложная расчетная задача, какой код становится критическим важным? Очевидно весь. Но также очевидно, что если мы будем сравнивать каждую операцию, то скорость вычислений = скорость узла сравнения.

А если вспомнить, что из-за ограниченности точности представления чисел с плавающей запятой, у нас итоговый результат всех вычислений будет разный. И как в этом случае устраивать голосование?

Голосование может быть произведено без принимающего решение выделенного центра: каждый элемент принимает решение самостоятельно, и соглашается что был не прав в своих вычислениях, если они не совпадают с большинством. Ситуация когда работа нарушена настолько, что мнение большинства игнорируется, должно приводить к сработке watchdog'а который перезапустит элемент.
Насколько я понимаю, БЭВМ спутников специально делаются большими (и поэтому медленными), чтобы минимизировать воздействие высокоэнергетического проникающего излучения. Когда у вас 14нм техпроцесс, один шальной протон может изменить результат операции, а если транзисторы у нас в десятки раз больше (и соответственно выше токи), то и воздействие в сотни раз ниже, потребуется одновременное попадание нескольких частиц.
Насчёт различий в результатах операций с плавающей точкой — если не ошибаюсь, это особенности работы ядер видеокарт, а не традиционных математических сопроцессоров, результаты вычислений которых детерминированы согласно IEEE 754.
P.S. нашёл статью в которой говорится об аномальном увеличении радиационной стойкости 65нм техпроцеса относительно более «толстых» техпроцессов. Было бы интересно узнать, как ведёт себя электроника с дальнейшим утончением техпроцесса.

В мире довольно много информационных систем. В них регулярно возникают сбои без всяких вспышек на Солнце. Теория вероятностей подсказывает нам, что вероятность, с которой подобный сбой совпадет по времени с какой-нибудь вспышкой, отлична от нуля (предполагаю, что попросту равняется единице). Поэтому делать выводы из единичного совпадения я бы не стал. :)

Поэтому и заголовок такой :)
Хотя я голосую за всплеск солнечной активности.
Утверждения «вероятность события А равна единице» и «событие А происходит безусловно» эквивалентны

Вполне рабочая версия, ещё пару лет назад с коллегой на пальцах считали, что раз в пару ECC как раз защищает от альфа частиц, а если сильная солнечная активность, то вполне в одном блоке два бита могло выбить — тогда проверка четности прошла и сбой. Так что вполне вероятное событие. Иначе для чего тогда ЕСС?

Если на солнце произойдет такая вспышка, что до размещенного на земле оборудования будут долетать альфа-частицы, то работоспособность этого оборудования уже никого волновать не будет. :)

Меня не покидает чувство дежавю. По-моему, я эту статью уже раньше читал.
Рады внимательным читателям :). Действительно, черновой вариант поста по недосмотру был размещен ранее и провисел тут несколько минут. Сейчас исправили ошибки.
Да нет, давно что-то такое было. Думаю и untilx подтвердит.
У меня публикация засветилась в RSS 29 декабря, была тут. Висела довольно долго, если я правильно помню, даже какое-то обсуждение было. Ну, перенесли и пёс с ней.
Следующая статья: «Как убедить клиентов и свое руководство в том, что виноваты не мы а вспышки на солнце».
Я им всё время говорю, что это вспышки на Солнце, а они мне: «Руки из жопы»…
Похоже на то! На что только не идут интеграторы, чтобы аргументировать недостаточное качество ПО.
Ага, только проблема в том, что это фотоны достигают Земли за 8 мин, а вот остальные частицы долетают гораздо позже.
Те частицы, которые пробиваются к самой Земле — высокоэнергичные, т.е. летят со скоростью близкой к скорости света.
Но позвольте!
Чтобы достичь Земли от Солнца с упомянутой вами скорость света, требуются как раз эти восемь с чем-то минут!

Или я неправильно прочитал ваш комментарий. :)
Рентгеновское излучение Солнца 5 и 6 сентября 2017 года по данным спутника GOES-15. То есть это данные по рентгеновскому излучению, которые регистрируются на спутнике (не на Солнце!). Уточнял этот момент лично у Богачева Сергея Александровича.
Спасибо. Теперь каждый раз перед началом дебагов буду заходить на сайт лаборатории и проверять, не было ли вспышек.
На википедии пишут, что солнечная активность, наоборот, снижает количество ошибок. Правда, без пруфов.

The average rate of cosmic-ray soft errors is inversely proportional to sunspot activity. That is, the average number of cosmic-ray soft errors decreases during the active portion of the sunspot cycle and increases during the quiet portion. This counterintuitive result occurs for two reasons. The sun does not generally produce cosmic ray particles with energy above 1 GeV that are capable of penetrating to the Earth's upper atmosphere and creating particle showers, so the changes in the solar flux do not directly influence the number of errors. Further, the increase in the solar flux during an active sun period does have the effect of reshaping the Earth's magnetic field providing some additional shielding against higher energy cosmic rays, resulting in a decrease in the number of particles creating showers. The effect is fairly small in any case resulting in a ±7% modulation of the energetic neutron flux in New York City. Other locations are similarly affected.[citation needed]
Так это про более/менее активную часть цикла, а не про вспышки. Вполне возможно, вспышки могут порождать частицы с энергией более 1 GeV.
Возможно, автор этой «теории» оздаравливается радиацией, лечит зубы ртутью и т.д…
Ну а что, про русскую мафию в зарубежных газетах в 90х писали же «закаленные ГУЛАГом».
Спасибо за ссылку на сайт и идею. Теперь буду знать, что писать в объяснительных.

Ну можно ведь защитить ram чем то вроде карбида вольфрама либо другими веществами, благо планки памяти на сегодня относительно маленькие(можно экранировать только сверху и торцов, для экономии). Должно выйти рентабельно для важных серверов, где простой — деньги.

От солнечных вспышек защитить можно, но остаются очень высокоэнергетические частицы космического излучения. Там только глубоко под землю закапывать.
errpt -a посмотреть бы вместе с саппортом веритас

ну а вообще и повера (т.к. это аикс) и их память имеют хорошую систему диагностики ошибок, так что влияние радиации довольно маловероятно — не видно ошибок железа.
Скажите пожалуйста, а зачем у вас используется VxFS, если есть Oracle ASM?
Если смотреть в развитии.

Функционал Volume manager (VM) предлагаемый Veritas очень стабильный, и, как это говорят mature. На рынке давно, еще до рождения ASM и становления других VM. Несмотря на существующие проблемы (ошибки в ПО), которых немного — свою работу делает на отлично.

Можно почитать здесь о преимуществах Veritas (да и вообще VM) в сравнении со статической разбивкой дисков: habrahabr.ru/post/204240

Кросс-платформенный, у ASM этого нет. Для текущей платформы — без альтернатив.
Спасибо.
Да, кросс-платформенности в ASM не хватает, при миграциях на другую платформу приходится прибегать к костылям.

У меня как раз в этот же день умер один из SSD в Ceph-кластере. Правда, ближе к вечеру, ЕМНИП.


Интересные корреляции.

Sign up to leave a comment.