Как стать автором
Обновить

Комментарии 53

Перевод средненький (термины отдельно повеселили, спасибо за заряд бодрости с утра), а исходная статья настолько пытается быть доступной для обывателя, что местами прямо врет, и это сводит ее ценность к нулю.
Например, никто в здравом уме не будет троировать массивы памяти, ведь для этого есть помехоустойчивое кодирование, добавляющее всего 30% площади.
То же самое касается троирования логики. «Ему нужно проделать каждую операцию трижды, а значит, он достигнет лишь трети своего быстродействия» — вот так в специализированных микросхемах никто не делает. Либо ставятся три копии схемы, которые делают работу так же быстро, но занимают больше места и потребляют больше энергии, либо на выходе схемы ставятся две задержки, чтобы получить один и тот же результат три раза в разное время — но там задержка должна быть длиннее времени сбоя, а не равной времени вычисления результата. Правда, в компьютерах на базе коммерческих чипов такой подход (или даже не троирование, а дублирование, причем не всего кода, а отдельных критичных команд, и не в покер, а в преферанс) может быть эффективен и применяется.
И так вот вся статья(
дублирование не решает же проблему? Две точки могут оказаться на пути пролёта одной частицы. Потому и троирование.
Три точки тоже могут оказаться на пути одной частицы. Или две точки из трех, и результа голосования все равно будет неверным. Или на пути частицы может оказаться схема, реализующая голосование. В общем, абсолютная защита в любом случае невозможна, возможно повышение вероятности бессбойной работы.
Дублирование с подачей команды на перерасчет, если два результата разошлись, или просто с переходом буфера в high-Z состояние на время расхождения результатов, вполне оправдано во многих случаях (например, если у вас нет бюджета площади или мощности на троирование всего вообще).
То, что дублирование оправдано во многих случаях — бесспорно. Но не во всех же, зря Вы так категоричны. Хотя, я не в той весовой категории, чтобы спорить и упираться :-)
Да ну камон, причем тут весовые категории вообще? Если есть, что добавить или уточнить — это повод для хорошего разговора. И я не претендую на абсолютную истину, для нее никто не в той весовой категории.

Я, кстати, не очень понял, где именно я категоричен. Там, где «никто в здравом уме не будет троировать память»? На самом деле конечно будет, я даже видел такие чипы, и даже в России. Я, правда, не очень считаю такой подход здравым умом, но это уже другой вопрос, мало ли какой у людей контекст там мог быть.
Если есть, что добавить или уточнить — это повод для хорошего разговора.
у меня для этого знаний не хватает, и именно это я имел в виду под весовой категорией :-)
Дублирование позволяет установить факт отказа. А дальше… Так-то и три вычислительных ядра — так себе отказоустойчивость, тем более когда они физически в одном изделии, скажем так. Тот же упомянутый чиплет HPSC разрабатывается с возможностью куда большей степени отказоустойчивости с обменом между узлами по SRIO.
Во-первых, не надо путать отказо- и сбоеустойчивость. Это вообще разные вещи, с разными подходами к защите.
Во-вторых, сбои тоже бывают разные, в памяти/триггерах и в логике. И в обоих случаях дублирование можно эффективно применять, если даунсайды вас устраивают. Но речь, разумеется, не идёт о том, чтобы просто поставить рядом два процессорных ядра.
Во-первых, не надо путать отказо- и сбоеустойчивость. Это вообще разные вещи, с разными подходами к защите.


Да, конечно. Выше я написал все наоборот, следует везде читать «сбой» вместо «отказ».

Во-вторых, сбои тоже бывают разные, в памяти/триггерах и в логике. И в обоих случаях дублирование можно эффективно применять, если даунсайды вас устраивают.


Ну так я как раз и говорю о том, что DCLS вполне эффективен.

Но речь, разумеется, не идёт о том, чтобы просто поставить рядом два процессорных ядра


В рамках одного изделия конечно по меньшей мере нужен delayed lockstep и геометрические отличия, я о таких процессорах только и говорю.
В рамках одного изделия конечно по меньшей мере нужен delayed lockstep и геометрические отличия, я о таких процессорах только и говорю.
Не может быть никаких категоричных суждений о том, что нужно, без ТЗ с конкретными требуемыми цифрами по интенсивности сбоев. А дальше уже дело разработчика микросхемы подобрать нужные приемы защиты из длинного списка вариантов, или разработчика системы — выбрать наиболее подходящий чип из доступных.
Плясать от приемов защиты а не от требований — это типичный хвост, виляющий собакой. В случае с локстепом — еще и довольно странный хвост по-моему, двойную площадь и энергию можно использовать существенно более эффективно, если поработать на низком уровне.
Ну вы погодите атаковать, я же не говорю, что все космические БЦВМ должны использовать только такие процессоры и только такую архитектуру. Само собой все идет от задачи — в случае космических БЦВМ как минимум от типа миссии. Мне показалось, что выше мы обсуждали дублирование/троирование itself, без привязки к отрасли, так что дискуссия носит общий характер. А мои комментарии по конкретным приемам защиты идут от того, что мне более-менее близко, а именно от коммерчески доступных изделий для промышленности, не для космоса. Впрочем и в случае космоса яркий пример тех же самых приемов — упомянутый HPSC.
факт сбоя — в большинстве случаев достаточен для выяснения истины. Отказ — без возможности восстановления, совсем другая история. Троирование — всего лишь способ быстрее устранить последствия сбоя.

Дублирование имеет тот недостаток, что оба дублирующих элемента могут быть поражены одной и той же частицей — ведь две точки всегда находятся на одной прямой. А вот три — нет (если мы намеренно не поставим их на одну прямую). Другое дело, что арбитраж-то в одном экземпляре, и поражён может быть он.
А также если два из трёх элементов в троироаанной схеме поражены, то сбой все равно будет. А два элемента всегда расположены на одной прямой, так что с точки зрения двойного сбоя от одной частицы принципиальной разницы между дублированием и троированием нет)
Схема арбитража в единственном экземпляре, но она во-первых, маленькая, а во-вторых, в ней может быть внутреннее резервирование или фильтрование.
Внутреннее резервирование предполагает следующий уровень арбитража. Матрёшка :-)
Ну нет, я же не говорю просто об одном дублированном процессоре вместо одного троированного. Речь об N дублированных процессоров с быстрым избыточным интерконнектом. Это то, что коммерчески востребовано в промышленности и в результате обеспечивает тот же уровень сбоеустойчивости, а также более высокий уровень живучести, чем один сильно избыточный процессор.
Самое надёжное — тупой, сверхнадёжный, с микросхемами по техпроцессу «в кулак размером», арбитр, который сравнивает конечные результаты расчётов. Вообще конечные. Не совпало — перезагружаем всё и пересчитываем, делов-то.
Надёжное — но медленное. А дальше пошли компромиссы, в тонкостях которых мне (и, боюсь, Вам тоже) уже не разобраться.
с микросхемами по техпроцессу «в кулак размером»


Вот это как раз одно из популярных заблуждений в отношении современной микроэлектроники для космоса.

Не совпало — перезагружаем всё и пересчитываем, делов-то.
Надёжное — но медленное. А дальше пошли компромиссы, в тонкостях которых мне (и, боюсь, Вам тоже) уже не разобраться.


В тонкостях космических БЦВМ я конечно не разбираюсь, но если говорить о промышленных ЦВМ с повышенными требованиями к надежности и безопасности, то тут могу утверждать компетентно — метод «все остановить и перезагрузить» конечно рабочий и часто используется, но мягко говоря безыдеен и не имеет перспектив (и потому не ставится во главу угла в перспективных разработках). А в системах для маневренных транспортных систем и вовсе этот метод неприемлем.
Я же излагал крайний, заведомо непрактичный случай — потому критика несколько неуместна :-)

И да, «размером в кулак» вполне работает в смысле радиационной защиты. Возмущения от прилетевших частиц получаются просто ниже порога изменения состояния.
И да, «размером в кулак» вполне работает в смысле радиационной защиты. Возмущения от прилетевших частиц получаются просто ниже порога изменения состояния.


Теоретически да (хотя надо смотреть конкретные условия). Но на практике есть еще такой фактор, как много худшая устойчивость «кулачных» топонорм к TID.
Ну, начнем с того, что микросхемы по техпроцессу размером с кулак как правило намного хуже держат дозу радиации. Поэтому с точки зрения надёжности общем обычно выгоднее использовать более тонкие проектные нормы с достаточным уровнем резервирования.
Продолжим тем, что есть ситуации, когда медленно нельзя (при посадке на Луну например) или когда после пересчёта результаты снова не сойдутся (в плотном потоке частиц в солнечной вспышке например).
Так что сравнивать вообще конечные результаты — это как раз очень плохая идея, а не очень хорошая. Чем раньше отловлена ошибка и чем меньше она успеет распространиться по системе — тем лучше.
микросхемы по техпроцессу размером с кулак как правило намного хуже держат дозу радиации
бытовые, просто старые — да. А так-то физика. В килограммовой массе одна частица не произведёт такого возмущения, чтобы состояние переключилось.
бытовые, просто старые — да.
Нет, не только бытовые, но и даже специально защищенные. В них намного лучше ситуация с одиночными сбоями, зато в толстом подзатворном оксиде может скопиться намного больше заряда под действием дозы излучения, в результате чего n-канальные транзисторы перестают закрываться, а p-канальные перестают открываться.
ага, понятно — хвост вытащили, нос увяз. От единичных высокоэнергетических защитились, а фон (накопление дозы) давит.
Поэтому правильный подход состоит в том, чтобы определить требования по всем интересующим факторам воздействия внешней среды, а потом подобрать методы защиты так, чтобы удовлетворить заранее заданным требованиям. Универсальных решений и абсолютной защиты, к сожалению, не существует.
То есть Вы говорите, что заряд скопится в диэлектрике между 2 контактами на затворе и подача на него напряжения не даст нужного эффекта?
И утекать этот заряд будет слишком долго.
Да, все так. У дырок очень низкая подвижность в SiO2, поэтому они, появившись в подзатворном оксиде под воздействием ионизирующего излучения, накапливаются, создавая встроенное электрическое поле, эквивалентное сдвигу порогового напряжения транзистора. И в общем случае этот заряд утекает медленнее, чем накапливается.
Мда, кони и люди, галопом по Европам, и это на сайте, где вопрос тащемта уже неплохо раскрыт в последние пять лет. Разве что про HPSC едва ли не первое упоминание, и то какое-то куцее вышло (а проект интересный, заслуживает статьи на Хабре).
Имею вопрос. МКС летает на 400 км и там работают на обычных синкпадах. Ф-Г успел долететь до 347 (если википедия не врет) и в нем уже сломался спец. компьютер. Это как?
1) Одиночные сбои и отказы — чисто вероятностная штука. Действительно могло вот так вот очень сильно не повезти Ф-Г.
2) Пояса ван Аллена собирают протоны и электроны, но не защищают от более тяжелых заряженных частиц, одна из которых, согласно официальной версии, и привела к тиристорному эффекту в памяти.
К сожалению, официальная версия может быть полностью ложной. Там целый комплекс проблем был. И инженеры это знали, просто сроки реализации были ограничены (некомпетентным начальством), и средства тестирования и отладки убогие.
Для госсектора в России это обычная ситуация (к сожалению), и всякая брехня, произносимая и печатаемая с умным видом в т.ч.
А из того, что я наверняка могу сказать:
Когда что-то на земле делается, то проблемы решаются кучей доработок и прошивок, это очень долго и дорого, но приводит к цели. Тут даже не очень страшно, когда приходится «выпихнуть» сырое железо с сырым софтом. И тут «официальные версии» в ход идут, а в это время инженеры дорабатывают, и бывает не один раз. Просто эффективные менеджеры решили что так и в космосе будет.
А может кто проинформировать как обстоят дела с процессорами в российской космонавтике? Есть что то похожее. Или уже давно сделана ставка на импортное?
Есть радстойкие процессоры в России, у нескольких компаний — НИИСИ, Элвис, Модуль, Миландр, НИИЭТ, Ангстрем, Прогресс. Ставка на импортное, правда, тоже была сделана, но импортные радстойкие процессоры под санкцииями теперь.
Обязательный минимум для читателя сего ресурса — habr.com/ru/post/217427
и их отказы случались даже под минимальным энергетическим воздействием, доступным в Брукхейвене

Пучком ядер, эквивалентным 7.7 ГэВ на нуклон, жахнули по процессору?

как сапфир или арсенид галлия

AlGaAs хорош для датчиков близкого ИК диапазона (скажем до окна 3-5 мкм). А под какой техпроцесс действительно можно изготавливать из него микросхемы?
А под какой техпроцесс действительно можно изготавливать из него микросхемы?
СБИС на GaAs закончились в начале девяностых, на проектных нормах порядка 1 мкм. Прогресс в кремнии на сапфире закончился примерно тогда же, но там все несколько интереснее.
Вот тут моя большая статья по этому поводу.
Строго говоря, для мониторинга состояния хватает и на порядок более скромных мощностей, как и для генерации понятных на слух голосовых сообщений. Потребность возникает в уже упомянутой в статье «красивой графики» и почему то не упомянутых прогнозных расчетах (интегрирование). Вот как раз последние и есть реальный локомотив, требующий роста мощностей.
А в остальном статья и полезная и актуальная, дает пищу для размышлений
«Понятная графика» расширит ротацию людей, претендующих на выход в космос. Не отправлять же исключительно it-шников в прекрасное далёко :)
А для мониторинга нормального, к которому мы уже давно привыкли, нужны как и впечатляющие мощности, так и возможность вывести получаемое тепло.
Хм… тут же вроде писали, что фобос грунт разбился не из-за каких-то там частиц, а банально по тому, что вся его начинка успела три раза устареть из-за постоянных переносов запуска и отказ чего-либо был с почти 100% вероятностью. Миссию сей агрегат не смог бы выполнить ну никак — это было известно заранее, но бюджет уже был распилен. То-есть не отказали бы чипы — сломалось бы что-то другое и всем это было известно :(
Каким образом отказ связан с устареванием (не старением аппаратуры, а именно устареванием, как сказали вы)? Устаревание означает, что функционал аппарата будет устаревшим, ограниченным, а не то, что он не выполнит запланированное.
Конечно в теории в кристалле процессора могут возникнуть проблемы сами по себе, когда он хранится при температуре 300 К. Но при многих часах работы с приложенным напряжением и несколько большей температурой это кажется более вероятным.
ну в спутнике не только процессор, системы питания, охлаждения, механика приводов и тд. Все знали, что запускают по сути хлам, который собирался почти четверть века — агрегат был частично собран еще в девяностых, а потом долгое время лежал и ждал. За это время все, что могло окислиться, потрескаться и деформироваться — это сделало. Космос и земля — разные среды. Спутник нужно было собирать с ноля но денег не было, взяли самые дешевые процессоры, подходящие под ТЗ и отправили (могли вообще гражданские взять, но в тендере так нельзя было писать), провели чистку всего, чего смогли и запустили — но ресурс элементов был уже так неслабо исчерпан. Насколько я помню, когда проект задумывали — там должны были вообще стоять советские микрухи, выпуск которых был профукан давным давно. Они то как раз спокойно пережили бы космос.
На ядре LEON есть и отечественные разработки, тот же 1906ВМ016 воронежского НИИЭТ.

Объясните пожалуйста незнающему человеку одну вещь: Если взять, например, компьютер RaspberryPi и поместить его в куб (отбросим вопросы отвода тепла и вес) из свинца (или ещё чего радстойкого) для защиты от радиации. По-идее эта штука сможет же работать в космосе?


А если вывести из Куба проводку для солнечных батарей или запуска двигателей, то по проводам может проскочить заряд внутрь, или как это вообще работает?

Радиационнозащитные корпуса для микросхем из тяжёлых металлов существуют и применяются, равно как и локальная защита толстыми стенками корпуса аппарата.
Но есть два но:
1) Пренебрегать весом нельзя, для сложных орбит применение радстойких микросхем экономически выгоднее вывода на орбиту свинцовых кубов, особенно с учётом того, что размеры современных больших аппаратов вплотную приближаются к грузоподъёмности ракет.
2) Основную опасность для современных микросхем представляет не полная доза радиации, а одиночные сбои и отказы, и ситуацию с ними свинцовый куб сделает хуже, потому что существует такая вещь, как вторичное излучение, и от каждой падающей на внешнюю стенку куба частицы может получиться несколько продуктов взаимодействия со свинцов, то есть внутри куба частиц окажется больше, чем снаружи. Собственно, этот эффект каждый раз хорошо виден в результатах тестов радиационнозащитных корпусов.
1. Куб из свинца.
2. Нейтроны от Солнца вроде как не долетят, летят со скромной скоростью не более 51400 км/с. Но это скорость продуктов реакции в ядре, им сложно будет быстро вылететь из ядра при времени жизни 892.6 секунд. так что полиэтиленом можно не защищать.
3. Электроны — не уверен.

А так, в теории, можно встретить протон или электрон высокой энергии. Скажем позитроны и электроны до 200 ГэВ встречаются.

P.S. Да, как сказали выше, любая частица высокой энергии может породить несколько частиц не столь высокой. Если 1 электрон в свинце создаст 80 электронов энергией по 2 эВ — может быть больший вред, чем от изначальной частицы.
На практике с хорошей вероятностью можно встретить атом кислорода или железа, и ещё на практике есть вторичное излучение от ядерной реакции прилетевшего ядра/протона с материалом защиты.
А если прилетит протон с энергией 26 ГэВ (беру пример генерации антипротонов на предшествующем БАК адронном коллайдрере), то при ударе в атом скажем меди (ЕМНИП там такая мишень, но на Вики не нашел инфы) может родиться антипротон.
Для задачи «пробить защиту релятивистской частицей» конечно лучше подходят ядра большей массы.
P.S. Вспомнил, на LHC ещё получали антипротоны при столкновении с облаком гелия. То есть при огромной энергии налетающего протона можно получить даже в столкновении с легкими ядрами разные адроны.
Да не нужны никакие огромные энергии, вот типичная карта сбоев в двух чипах памяти на орбите МКС: один внутри защиты, второй снаружи. Примерно сбой в день на мегабит памяти.
почему нельзя поставить десять «айфонов» на общей шине?
На орбите земли (где сломался Фобос-Грунт) «айфоны» на МКС прекрасно работают годами.
Что подразумеваете под «работают годами»? Да, в рамках последнего полета шаттла были в качестве рекламы доставлено NanoRacks два четвертых айфона, на них протестировали работу гироскопа аппарата, через пару месяцев вернули Союзом.
Или вы про какую то другую продукцию яблочных?
взять двух и более процессорную серверную плату не?
выпустить на коммерческий рынок эти космопроцессоры для падения цены?
взять двух и более процессорную серверную плату не?
Взять двухпроцессорную серверную плату, чтобы что? Бортовые компьютеры большинства спутников содержат две трехпроцессорные платы.
выпустить на коммерческий рынок эти космопроцессоры для падения цены?
А кому конкретно могут быть нужны эти космопроцессоры на коммерческом рынке, если они проигрывают по скорости и потреблению в разы?
насчет спутников такой подробной инфы незнал, думал излучение на разнесенные процессоры не влияет.
ну рынок защищенный военных дорогих панасоник таучбук существует, продаються супердорогие макбук и айфон. Сделать бренд космобук там какойнить, техногики захотят ) Можно дополнять их обычным процессором. Да и вооще подтянеться уровень программистов для данных процессоров которые бы в будущем и стали этими космонавтами.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории