SLY_G 26 ноя 2019 в 12:29

Процессоры космического класса: как отправить в космос побольше вычислительной мощности?

17 мин

19K

ПроцессорыКосмонавтика

Перевод

+25

Комментарии 53

amartology 26 ноя 2019 в 12:45

Перевод средненький (термины отдельно повеселили, спасибо за заряд бодрости с утра), а исходная статья настолько пытается быть доступной для обывателя, что местами прямо врет, и это сводит ее ценность к нулю.
Например, никто в здравом уме не будет троировать массивы памяти, ведь для этого есть помехоустойчивое кодирование, добавляющее всего 30% площади.
То же самое касается троирования логики. «Ему нужно проделать каждую операцию трижды, а значит, он достигнет лишь трети своего быстродействия» — вот так в специализированных микросхемах никто не делает. Либо ставятся три копии схемы, которые делают работу так же быстро, но занимают больше места и потребляют больше энергии, либо на выходе схемы ставятся две задержки, чтобы получить один и тот же результат три раза в разное время — но там задержка должна быть длиннее времени сбоя, а не равной времени вычисления результата. Правда, в компьютерах на базе коммерческих чипов такой подход (или даже не троирование, а дублирование, причем не всего кода, а отдельных критичных команд, ~~и не в покер, а в преферанс~~) может быть эффективен и применяется.
И так вот вся статья(

Bedal 26 ноя 2019 в 14:46

дублирование не решает же проблему? Две точки могут оказаться на пути пролёта одной частицы. Потому и троирование.

amartology 26 ноя 2019 в 14:58

Три точки тоже могут оказаться на пути одной частицы. Или две точки из трех, и результа голосования все равно будет неверным. Или на пути частицы может оказаться схема, реализующая голосование. В общем, абсолютная защита в любом случае невозможна, возможно повышение вероятности бессбойной работы.
Дублирование с подачей команды на перерасчет, если два результата разошлись, или просто с переходом буфера в high-Z состояние на время расхождения результатов, вполне оправдано во многих случаях (например, если у вас нет бюджета площади или мощности на троирование всего вообще).

Bedal 26 ноя 2019 в 15:10

То, что дублирование оправдано во многих случаях — бесспорно. Но не во всех же, зря Вы так категоричны. Хотя, я не в той весовой категории, чтобы спорить и упираться :-)

amartology 26 ноя 2019 в 15:16

Да ну камон, причем тут весовые категории вообще? Если есть, что добавить или уточнить — это повод для хорошего разговора. И я не претендую на абсолютную истину, для нее никто не в той весовой категории.

Я, кстати, не очень понял, где именно я категоричен. Там, где «никто в здравом уме не будет троировать память»? На самом деле конечно будет, я даже видел такие чипы, и даже в России. Я, правда, не очень считаю такой подход здравым умом, но это уже другой вопрос, мало ли какой у людей контекст там мог быть.

Bedal 26 ноя 2019 в 15:38

Если есть, что добавить или уточнить — это повод для хорошего разговора.

у меня для этого знаний не хватает, и именно это я имел в виду под весовой категорией :-)

hhba 26 ноя 2019 в 23:31

Дублирование позволяет установить факт отказа. А дальше… Так-то и три вычислительных ядра — так себе отказоустойчивость, тем более когда они физически в одном изделии, скажем так. Тот же упомянутый чиплет HPSC разрабатывается с возможностью куда большей степени отказоустойчивости с обменом между узлами по SRIO.

amartology 27 ноя 2019 в 00:28

Во-первых, не надо путать отказо- и сбоеустойчивость. Это вообще разные вещи, с разными подходами к защите.
Во-вторых, сбои тоже бывают разные, в памяти/триггерах и в логике. И в обоих случаях дублирование можно эффективно применять, если даунсайды вас устраивают. Но речь, разумеется, не идёт о том, чтобы просто поставить рядом два процессорных ядра.

hhba 27 ноя 2019 в 09:43

Во-первых, не надо путать отказо- и сбоеустойчивость. Это вообще разные вещи, с разными подходами к защите.

Да, конечно. Выше я написал все наоборот, следует везде читать «сбой» вместо «отказ».

Во-вторых, сбои тоже бывают разные, в памяти/триггерах и в логике. И в обоих случаях дублирование можно эффективно применять, если даунсайды вас устраивают.

Ну так я как раз и говорю о том, что DCLS вполне эффективен.

Но речь, разумеется, не идёт о том, чтобы просто поставить рядом два процессорных ядра

В рамках одного изделия конечно по меньшей мере нужен delayed lockstep и геометрические отличия, я о таких процессорах только и говорю.

amartology 27 ноя 2019 в 09:56

В рамках одного изделия конечно по меньшей мере нужен delayed lockstep и геометрические отличия, я о таких процессорах только и говорю.

Не может быть никаких категоричных суждений о том, что нужно, без ТЗ с конкретными требуемыми цифрами по интенсивности сбоев. А дальше уже дело разработчика микросхемы подобрать нужные приемы защиты из длинного списка вариантов, или разработчика системы — выбрать наиболее подходящий чип из доступных.
Плясать от приемов защиты а не от требований — это типичный хвост, виляющий собакой. В случае с локстепом — еще и довольно странный хвост по-моему, двойную площадь и энергию можно использовать существенно более эффективно, если поработать на низком уровне.

hhba 27 ноя 2019 в 10:14

Ну вы погодите атаковать, я же не говорю, что все космические БЦВМ должны использовать только такие процессоры и только такую архитектуру. Само собой все идет от задачи — в случае космических БЦВМ как минимум от типа миссии. Мне показалось, что выше мы обсуждали дублирование/троирование itself, без привязки к отрасли, так что дискуссия носит общий характер. А мои комментарии по конкретным приемам защиты идут от того, что мне более-менее близко, а именно от коммерчески доступных изделий для промышленности, не для космоса. Впрочем и в случае космоса яркий пример тех же самых приемов — упомянутый HPSC.

Bedal 27 ноя 2019 в 08:27

факт сбоя — в большинстве случаев достаточен для выяснения истины. Отказ — без возможности восстановления, совсем другая история. Троирование — всего лишь способ быстрее устранить последствия сбоя.

Дублирование имеет тот недостаток, что оба дублирующих элемента могут быть поражены одной и той же частицей — ведь две точки всегда находятся на одной прямой. А вот три — нет (если мы намеренно не поставим их на одну прямую). Другое дело, что арбитраж-то в одном экземпляре, и поражён может быть он.

amartology 27 ноя 2019 в 09:35

А также если два из трёх элементов в троироаанной схеме поражены, то сбой все равно будет. А два элемента всегда расположены на одной прямой, так что с точки зрения двойного сбоя от одной частицы принципиальной разницы между дублированием и троированием нет)
Схема арбитража в единственном экземпляре, но она во-первых, маленькая, а во-вторых, в ней может быть внутреннее резервирование или фильтрование.

Bedal 27 ноя 2019 в 10:09

Внутреннее резервирование предполагает следующий уровень арбитража. Матрёшка :-)

hhba 27 ноя 2019 в 09:52

Ну нет, я же не говорю просто об одном дублированном процессоре вместо одного троированного. Речь об N дублированных процессоров с быстрым избыточным интерконнектом. Это то, что коммерчески востребовано в промышленности и в результате обеспечивает тот же уровень сбоеустойчивости, а также более высокий уровень живучести, чем один сильно избыточный процессор.

Bedal 27 ноя 2019 в 10:03

Самое надёжное — тупой, сверхнадёжный, с микросхемами по техпроцессу «в кулак размером», арбитр, который сравнивает конечные результаты расчётов. Вообще конечные. Не совпало — перезагружаем всё и пересчитываем, делов-то.
Надёжное — но медленное. А дальше пошли компромиссы, в тонкостях которых мне (и, боюсь, Вам тоже) уже не разобраться.

hhba 27 ноя 2019 в 10:18

с микросхемами по техпроцессу «в кулак размером»

Вот это как раз одно из популярных заблуждений в отношении современной микроэлектроники для космоса.

Не совпало — перезагружаем всё и пересчитываем, делов-то.
Надёжное — но медленное. А дальше пошли компромиссы, в тонкостях которых мне (и, боюсь, Вам тоже) уже не разобраться.

В тонкостях космических БЦВМ я конечно не разбираюсь, но если говорить о промышленных ЦВМ с повышенными требованиями к надежности и безопасности, то тут могу утверждать компетентно — метод «все остановить и перезагрузить» конечно рабочий и часто используется, но мягко говоря безыдеен и не имеет перспектив (и потому не ставится во главу угла в перспективных разработках). А в системах для маневренных транспортных систем и вовсе этот метод неприемлем.

Bedal 27 ноя 2019 в 11:03

Я же излагал крайний, заведомо непрактичный случай — потому критика несколько неуместна :-)

И да, «размером в кулак» вполне работает в смысле радиационной защиты. Возмущения от прилетевших частиц получаются просто ниже порога изменения состояния.

hhba 27 ноя 2019 в 11:52

И да, «размером в кулак» вполне работает в смысле радиационной защиты. Возмущения от прилетевших частиц получаются просто ниже порога изменения состояния.

Теоретически да (хотя надо смотреть конкретные условия). Но на практике есть еще такой фактор, как много худшая устойчивость «кулачных» топонорм к TID.

amartology 27 ноя 2019 в 10:19

Ну, начнем с того, что микросхемы по техпроцессу размером с кулак как правило намного хуже держат дозу радиации. Поэтому с точки зрения надёжности общем обычно выгоднее использовать более тонкие проектные нормы с достаточным уровнем резервирования.
Продолжим тем, что есть ситуации, когда медленно нельзя (при посадке на Луну например) или когда после пересчёта результаты снова не сойдутся (в плотном потоке частиц в солнечной вспышке например).
Так что сравнивать вообще конечные результаты — это как раз очень плохая идея, а не очень хорошая. Чем раньше отловлена ошибка и чем меньше она успеет распространиться по системе — тем лучше.

Bedal 27 ноя 2019 в 11:05

микросхемы по техпроцессу размером с кулак как правило намного хуже держат дозу радиации

бытовые, просто старые — да. А так-то физика. В килограммовой массе одна частица не произведёт такого возмущения, чтобы состояние переключилось.

amartology 27 ноя 2019 в 11:21

бытовые, просто старые — да.

Нет, не только бытовые, но и даже специально защищенные. В них намного лучше ситуация с одиночными сбоями, зато в толстом подзатворном оксиде может скопиться намного больше заряда под действием дозы излучения, в результате чего n-канальные транзисторы перестают закрываться, а p-канальные перестают открываться.

Bedal 27 ноя 2019 в 12:53

ага, понятно — хвост вытащили, нос увяз. От единичных высокоэнергетических защитились, а фон (накопление дозы) давит.

amartology 27 ноя 2019 в 13:07

Поэтому правильный подход состоит в том, чтобы определить требования по всем интересующим факторам воздействия внешней среды, а потом подобрать методы защиты так, чтобы удовлетворить заранее заданным требованиям. Универсальных решений и абсолютной защиты, к сожалению, не существует.

Victor_koly 27 ноя 2019 в 13:30

То есть Вы говорите, что заряд скопится в диэлектрике между 2 контактами на затворе и подача на него напряжения не даст нужного эффекта?
И утекать этот заряд будет слишком долго.

amartology 27 ноя 2019 в 13:40

Да, все так. У дырок очень низкая подвижность в SiO2, поэтому они, появившись в подзатворном оксиде под воздействием ионизирующего излучения, накапливаются, создавая встроенное электрическое поле, эквивалентное сдвигу порогового напряжения транзистора. И в общем случае этот заряд утекает медленнее, чем накапливается.

hhba 26 ноя 2019 в 23:34

Мда, кони и люди, галопом по Европам, и это на сайте, где вопрос тащемта уже неплохо раскрыт в последние пять лет. Разве что про HPSC едва ли не первое упоминание, и то какое-то куцее вышло (а проект интересный, заслуживает статьи на Хабре).

nerudo 26 ноя 2019 в 14:00

Имею вопрос. МКС летает на 400 км и там работают на обычных синкпадах. Ф-Г успел долететь до 347 (если википедия не врет) и в нем уже сломался спец. компьютер. Это как?

amartology 26 ноя 2019 в 14:04

1) Одиночные сбои и отказы — чисто вероятностная штука. Действительно могло вот так вот очень сильно не повезти Ф-Г.
2) Пояса ван Аллена собирают протоны и электроны, но не защищают от более тяжелых заряженных частиц, одна из которых, согласно официальной версии, и привела к тиристорному эффекту в памяти.

Alsolex 27 ноя 2019 в 01:35

К сожалению, официальная версия может быть полностью ложной. Там целый комплекс проблем был. И инженеры это знали, просто сроки реализации были ограничены (некомпетентным начальством), и средства тестирования и отладки убогие.
Для госсектора в России это обычная ситуация (к сожалению), и всякая брехня, произносимая и печатаемая с умным видом в т.ч.
А из того, что я наверняка могу сказать:
Когда что-то на земле делается, то проблемы решаются кучей доработок и прошивок, это очень долго и дорого, но приводит к цели. Тут даже не очень страшно, когда приходится «выпихнуть» сырое железо с сырым софтом. И тут «официальные версии» в ход идут, а в это время инженеры дорабатывают, и бывает не один раз. Просто эффективные менеджеры решили что так и в космосе будет.

CYBOPOB 26 ноя 2019 в 14:33

А может кто проинформировать как обстоят дела с процессорами в российской космонавтике? Есть что то похожее. Или уже давно сделана ставка на импортное?

amartology 26 ноя 2019 в 14:49

Есть радстойкие процессоры в России, у нескольких компаний — НИИСИ, Элвис, Модуль, Миландр, НИИЭТ, Ангстрем, Прогресс. Ставка на импортное, правда, тоже была сделана, но импортные радстойкие процессоры под санкцииями теперь.

hhba 26 ноя 2019 в 23:35

Обязательный минимум для читателя сего ресурса — habr.com/ru/post/217427

Victor_koly 26 ноя 2019 в 16:33

и их отказы случались даже под минимальным энергетическим воздействием, доступным в Брукхейвене

Пучком ядер, эквивалентным 7.7 ГэВ на нуклон, жахнули по процессору?

как сапфир или арсенид галлия

AlGaAs хорош для датчиков близкого ИК диапазона (скажем до окна 3-5 мкм). А под какой техпроцесс действительно можно изготавливать из него микросхемы?

amartology 26 ноя 2019 в 16:46

А под какой техпроцесс действительно можно изготавливать из него микросхемы?

СБИС на GaAs закончились в начале девяностых, на проектных нормах порядка 1 мкм. Прогресс в кремнии на сапфире закончился примерно тогда же, но там все несколько интереснее.
Вот тут моя большая статья по этому поводу.

SomaTayron 26 ноя 2019 в 17:18

Строго говоря, для мониторинга состояния хватает и на порядок более скромных мощностей, как и для генерации понятных на слух голосовых сообщений. Потребность возникает в уже упомянутой в статье «красивой графики» и почему то не упомянутых прогнозных расчетах (интегрирование). Вот как раз последние и есть реальный локомотив, требующий роста мощностей.
А в остальном статья и полезная и актуальная, дает пищу для размышлений

Mana_Banana 27 ноя 2019 в 10:37

«Понятная графика» расширит ротацию людей, претендующих на выход в космос. Не отправлять же исключительно it-шников в прекрасное далёко :)
А для мониторинга нормального, к которому мы уже давно привыкли, нужны как и впечатляющие мощности, так и возможность вывести получаемое тепло.

Zmiy666 26 ноя 2019 в 21:06

Хм… тут же вроде писали, что фобос грунт разбился не из-за каких-то там частиц, а банально по тому, что вся его начинка успела три раза устареть из-за постоянных переносов запуска и отказ чего-либо был с почти 100% вероятностью. Миссию сей агрегат не смог бы выполнить ну никак — это было известно заранее, но бюджет уже был распилен. То-есть не отказали бы чипы — сломалось бы что-то другое и всем это было известно :(

MacIn 27 ноя 2019 в 04:16

Каким образом отказ связан с устареванием (не старением аппаратуры, а именно устареванием, как сказали вы)? Устаревание означает, что функционал аппарата будет устаревшим, ограниченным, а не то, что он не выполнит запланированное.

Victor_koly 27 ноя 2019 в 09:39

Конечно в теории в кристалле процессора могут возникнуть проблемы сами по себе, когда он хранится при температуре 300 К. Но при многих часах работы с приложенным напряжением и несколько большей температурой это кажется более вероятным.

Zmiy666 27 ноя 2019 в 10:00

ну в спутнике не только процессор, системы питания, охлаждения, механика приводов и тд. Все знали, что запускают по сути хлам, который собирался почти четверть века — агрегат был частично собран еще в девяностых, а потом долгое время лежал и ждал. За это время все, что могло окислиться, потрескаться и деформироваться — это сделало. Космос и земля — разные среды. Спутник нужно было собирать с ноля но денег не было, взяли самые дешевые процессоры, подходящие под ТЗ и отправили (могли вообще гражданские взять, но в тендере так нельзя было писать), провели чистку всего, чего смогли и запустили — но ресурс элементов был уже так неслабо исчерпан. Насколько я помню, когда проект задумывали — там должны были вообще стоять советские микрухи, выпуск которых был профукан давным давно. Они то как раз спокойно пережили бы космос.

knifec 27 ноя 2019 в 01:35

На ядре LEON есть и отечественные разработки, тот же 1906ВМ016 воронежского НИИЭТ.

SynmanProff 27 ноя 2019 в 08:51

Объясните пожалуйста незнающему человеку одну вещь: Если взять, например, компьютер RaspberryPi и поместить его в куб (отбросим вопросы отвода тепла и вес) из свинца (или ещё чего радстойкого) для защиты от радиации. По-идее эта штука сможет же работать в космосе?

А если вывести из Куба проводку для солнечных батарей или запуска двигателей, то по проводам может проскочить заряд внутрь, или как это вообще работает?

amartology 27 ноя 2019 в 09:45

Радиационнозащитные корпуса для микросхем из тяжёлых металлов существуют и применяются, равно как и локальная защита толстыми стенками корпуса аппарата.
Но есть два но:
1) Пренебрегать весом нельзя, для сложных орбит применение радстойких микросхем экономически выгоднее вывода на орбиту свинцовых кубов, особенно с учётом того, что размеры современных больших аппаратов вплотную приближаются к грузоподъёмности ракет.
2) Основную опасность для современных микросхем представляет не полная доза радиации, а одиночные сбои и отказы, и ситуацию с ними свинцовый куб сделает хуже, потому что существует такая вещь, как вторичное излучение, и от каждой падающей на внешнюю стенку куба частицы может получиться несколько продуктов взаимодействия со свинцов, то есть внутри куба частиц окажется больше, чем снаружи. Собственно, этот эффект каждый раз хорошо виден в результатах тестов радиационнозащитных корпусов.

Victor_koly 27 ноя 2019 в 10:17

1. Куб из свинца.
2. Нейтроны от Солнца вроде как не долетят, летят со скромной скоростью не более 51400 км/с. Но это скорость продуктов реакции в ядре, им сложно будет быстро вылететь из ядра при времени жизни 892.6 секунд. так что полиэтиленом можно не защищать.
3. Электроны — не уверен.

А так, в теории, можно встретить протон или электрон высокой энергии. Скажем позитроны и электроны до 200 ГэВ встречаются.

P.S. Да, как сказали выше, любая частица высокой энергии может породить несколько частиц не столь высокой. Если 1 электрон в свинце создаст 80 электронов энергией по 2 эВ — может быть больший вред, чем от изначальной частицы.

amartology 27 ноя 2019 в 10:24

На практике с хорошей вероятностью можно встретить атом кислорода или железа, и ещё на практике есть вторичное излучение от ядерной реакции прилетевшего ядра/протона с материалом защиты.

Victor_koly 27 ноя 2019 в 13:43

А если прилетит протон с энергией 26 ГэВ (беру пример генерации антипротонов на предшествующем БАК адронном коллайдрере), то при ударе в атом скажем меди (ЕМНИП там такая мишень, но на Вики не нашел инфы) может родиться антипротон.
Для задачи «пробить защиту релятивистской частицей» конечно лучше подходят ядра большей массы.
P.S. Вспомнил, на LHC ещё получали антипротоны при столкновении с облаком гелия. То есть при огромной энергии налетающего протона можно получить даже в столкновении с легкими ядрами разные адроны.

amartology 27 ноя 2019 в 13:55

Да не нужны никакие огромные энергии, вот типичная карта сбоев в двух чипах памяти на орбите МКС: один внутри защиты, второй снаружи. Примерно сбой в день на мегабит памяти.

vladvul 27 ноя 2019 в 10:48

почему нельзя поставить десять «айфонов» на общей шине?
На орбите земли (где сломался Фобос-Грунт) «айфоны» на МКС прекрасно работают годами.

SomaTayron 28 ноя 2019 в 13:39

Что подразумеваете под «работают годами»? Да, в рамках последнего полета шаттла были в качестве рекламы доставлено NanoRacks два четвертых айфона, на них протестировали работу гироскопа аппарата, через пару месяцев вернули Союзом.
Или вы про какую то другую продукцию яблочных?

prilex 28 ноя 2019 в 13:18

взять двух и более процессорную серверную плату не?
выпустить на коммерческий рынок эти космопроцессоры для падения цены?

amartology 28 ноя 2019 в 13:34

взять двух и более процессорную серверную плату не?

Взять двухпроцессорную серверную плату, чтобы что? Бортовые компьютеры большинства спутников содержат две трехпроцессорные платы.

выпустить на коммерческий рынок эти космопроцессоры для падения цены?

А кому конкретно могут быть нужны эти космопроцессоры на коммерческом рынке, если они проигрывают по скорости и потреблению в разы?

prilex 28 ноя 2019 в 21:40

насчет спутников такой подробной инфы незнал, думал излучение на разнесенные процессоры не влияет.
ну рынок защищенный военных дорогих панасоник таучбук существует, продаються супердорогие макбук и айфон. Сделать бренд космобук там какойнить, техногики захотят ) Можно дополнять их обычным процессором. Да и вооще подтянеться уровень программистов для данных процессоров которые бы в будущем и стали этими космонавтами.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

Процессоры космического класса: как отправить в космос побольше вычислительной мощности?

Комментарии 53

Публикации

Истории