katyrosomaha Mar 25 2019 at 10:00

Тайна прошивок

11 min

28K

Солар corporate blogInformation Security*Programming*Assembler*C*

+81

Comments 96

rPman Mar 25 2019 at 10:28

Это не просто реверс инженеринг, это уже следующий уровень, даже не могу адекватно название придумать.
Аплодирую стоя.

p.s. помню фантастические сериалы типа звёздные врата, где учёные за дни и считанные годы разбирались с железом и софтом чужой цивилизации..

Полагаю вы занимаетесь именно этим только взаправду.

p.p.s. не думаю, что прошивку того же квантового процессора будет так просто разобрать, да просто нейронная сеть поставит исследователя в тупик

katyrosomaha Mar 25 2019 at 13:24

Спасибо! Работа была действительно интересная. Мы были обязаны про нее долгое время молчать, но вот сейчас срок «молчания» истек. Продолжение следует…

Alex023 Mar 25 2019 at 22:00

Пока шел срок молчания появились еще сотня другая архитектур. Интересно как будет дело обстоять с ними. Молчать придется еще дольше видимо.

K1804 Mar 25 2019 at 11:33

Частотный анализ… «Золотой жук» Эдгара Аллана По сразу вспоминается.

9660 Mar 26 2019 at 05:38

А также «Пляшущие человечки» А. Конан-Дойля

Azya Mar 25 2019 at 11:56

Спасибо за статью, интересно, только неожиданно прервалась, можно сказать, в самом начале( Тоже решал подобную задачу, и тоже начинал с определения размера инструкции «на глаз», потом CALL/RET, правда у меня был работающий девайс и дальше я восстанавливал инструкции в основном методом тыка.

Azya Mar 25 2019 at 11:59

И кстати, хорошо бы в посте опубликовать саму анализируемую прошивку.

katyrosomaha Mar 25 2019 at 13:26

Спасибо. Продолжение следует… Возможно по мотивам данной работы будут сделаны задачи для «Кубка реверса».

NetBUG Apr 1 2019 at 16:07

Ждём-ждём!

IgorPie Mar 25 2019 at 12:00

Частотный анализ и додуматься до CALL/RET, прям как детектив про Шерлока Холмса.

По длине бинарника можно прикинуть, что за зверь. Прошивка для 8битки вряд ли будет больше 64Кб. Ну и исключить известные архитектуры, типа 8080, Z80, dsPIC.

А еще, позвонить заказчику и попросить сфоткать начинку подробнее.

katyrosomaha Mar 25 2019 at 13:28

Заказчику мы звонили, только Заказчик все, что знал, сказал в самом начале работы.

VBKesha Mar 25 2019 at 12:07

Очень интересно, жду продолжения!

katyrosomaha Mar 25 2019 at 13:28

Спасибо. Оно будет достаточно скоро.

kosmonaFFFt Mar 25 2019 at 12:50

Не прбовали поглядеть, по каким адресам грузится файл прошивки, и, исходя из этого, определить что за микроконтроллер используется? Насколько я знаю, у каждого семейства МК свои адреса маппинга памяти для различных нужд.

katyrosomaha Mar 25 2019 at 13:30

Прошивка отображалась с нулевого адреса вместе с векторами прерывания. Это типичная ситуация.

paluke Mar 25 2019 at 13:28

После «ни один процессор из поддерживаемых IDA Pro не подошел» я бы предположил, что там используется к примеру форт или что-то подобное, и большая часть прошивки не является машинным кодом.

katyrosomaha Mar 25 2019 at 13:31

Разумное предположение, но все оно не подтвердилось.

IgorPie Mar 25 2019 at 16:18

Скорей всего, японский МК или проц. Всякие NEC любили вдарять по экзотике.
Да и автомобильные МК тоже не похожи ни на что.

romanetz_omsk Mar 25 2019 at 16:23

Есть ещё большое количество ASIC без (открытой) документации, скажем, TI и Atmel тоже в этом замечены. А уж про процессора для сотовых и говорить нечего.

IgorPie Mar 25 2019 at 16:37

Прошивка авторами расколота, значит что-то доступное, а не кастом. Возможно, хорошо забытое старое. Ардуино на КПДВ тоже наверное с намёком.

alecv Mar 25 2019 at 13:46

Если есть читаемые ASCII строки, то часто их адрес присутствует в коде команды загрузки указателя в регистр, а дальше идет CALL подпрограммы вывода или сравнения.

katyrosomaha Mar 25 2019 at 14:37

Здесь надо учитывать, что мы имеем дело не просто с приложением, а с прошивкой. Поэтому данное высказывание требует проверки.

xMetalliCx Mar 25 2019 at 13:47

пробовали скормить прошивку IDA Pro или unidasm-у из комплекта MAME и прогнать все поддерживаемые архитектуры?
или в даташитах на известные MCU поискать наиболее часто встречающиеся в бинарнике опкоды?

в авторах вроде указаны люди с к.ф.-м.н. итп учеными степенями, но с системным подходом похоже проблемы…

-3

katyrosomaha Mar 25 2019 at 14:35

Мы писали, что IDA Pro мы пробовали и такой архитектуры он не поддерживает, unidasm-у тоже пробовали, тоже не поддерживает.

Vantela Mar 25 2019 at 14:42

Оффтопик

Скажите, пожалуйста, а упомянутый к.ф.-м.н. Чернов А.В. случаем не преподавал практикум по ЭВМ на факультете ВМиК МГУ примерно 15-20 лет назад?

katyrosomaha Mar 25 2019 at 15:20

Сева, привет! Упомянутый к.ф.-м.н. Чернов А.В. до сих пор преподает там практикум. И у тебя преподавал. А выше упомянутая к.ф.-м.н. Трошина К.Н. в девичестве Катя Долгова училась с тобой в одной группе на 3-5 курсе :)
Мир тесен…

Vantela Mar 25 2019 at 15:27

Катя, привет! Тебя, конечно, не признал, но нечто подобное подозревал:)

Да, действительно очень и очень тесен.:) Тем более логично, что встречи итшников происходят на сайте хабра:)

PS До сих пор рассказываю всем историю как я чуть не сдал Чернову А.В программу на нобелевскую премию на практикуме:) Но не сдал все же.

katyrosomaha Mar 25 2019 at 15:34

Да забавно :) Мир очень маленький…

romanetz_omsk Mar 25 2019 at 14:53

Я встречал (дорабатывал) такой изврат, как виртуальная ассемблерная машина на ассемблерной же прошивке для PIC16.
Для реально существующих процессоров намного проще проверять по карте памяти (порты ввода/вывода, регистры периферии и т.п.)

katyrosomaha Mar 25 2019 at 15:36

Да, все так, если есть карты памяти, то их, конечно, надо использовать. Решая такие задачи, собираешь из того что, дали. И просить то, что надо, не приходится.

romanetz_omsk Mar 25 2019 at 16:00

Но от вас же просили компилируемый исходник, т.е. где-то существует тулчейн под вполне конкретный проц? А для этого тулчейна существуют вполне конкретные заголовочные файлы, ибо писать (uint16_t)0x4000080A=01 вместо GPIOA->ODR=1<<CS в конечном исходнике было бы несколько странно…
Плюс, например, комбинация режимов периферии (таймеров) и DMA, обвязанных ещё и схемотехнически, без знания периферии камня, схемы и осциллограмм в готовом устройстве — превращается просто в набор бессмысленных присвоений и адресов. Которые, на самом деле, являются обработчиками прерываний от DMA, скажем.
Ну то есть, видно, что труд вами проделан большой, но за абстракциями и недоговорённостями смысл потерялся.

romanetz_omsk Mar 25 2019 at 16:06

Пардон, (uint16_t)a=b вместо
GPIOA->ODR=1<<CS;

katyrosomaha Mar 25 2019 at 18:22

У нас не было такой информации в доступе. Но Вы правы, такой tool chain, непременно существует.

ser-mk Mar 25 2019 at 20:21

Ему требовался алгоритм управления в виде компилируемой С-программы...

И как вы собирались без тулчейна выдать ему компилируемую C-программу? =))

То, как мы в итоге разбирались с физикой, в рамках данного цикла статей мы опустим...

Если с физикой разбирались, то скорее всего у вас доступ устройству был, поэтому сделать оценку контроллера можно было.

vanxant Mar 25 2019 at 20:38

Так они не для старого проца программу должны были восстановить, а перенести на новую железяку.

katyrosomaha Mar 26 2019 at 12:50

Компилируемую С-программу мы сделали руками. Продолжение будет далее…
Доступа к устройству никогда не было.

tyomitch Mar 26 2019 at 14:36

И у заказчика тоже никогда не было?

katyrosomaha Mar 27 2019 at 13:14

И у заказчика тоже никогда не было.

emmibox Mar 25 2019 at 15:12

Есть системы где шины и адреса и данных рандомно перепутаны. Для них Последовательное исполнение инструкций. Процессор исполняет инструкции, расположенные последовательно в памяти. естественно не выполняется.
Когда в руках живая плата — это прозванивается за 10 минут. Но в случае если есть только бинарник — было бы интересно как тут быть?

katyrosomaha Mar 25 2019 at 15:37

Нам тоже было бы интересно такую задачу порешать.

emmibox Mar 25 2019 at 16:15

У меня например на этот счет нет идей… если у вас тоже — получается, что этот метод будет защитой от реверса вашим методом…

katyrosomaha Mar 25 2019 at 18:20

Здесь мы рассказали, как решали конкретную задачу.

emmibox Mar 25 2019 at 23:09

В которой вам просто повезло, что было не так! А могло бы и не быть — т.е. ваше решение базируется на везении и том, что линейное пространство в hex-ах встречается с более высокой вероятностью.

katyrosomaha Mar 26 2019 at 12:51

Это не везение, это знания. Здесь рассказано решение конкретной задачи, тем методом, которым ее удалось решить.

emmibox Mar 26 2019 at 13:38

Вы сделали очень много последовательных допущений, каждое из которых волшебным образом сработало. (линейность пространства, напрямую хранятся адреса вызовов подпрограмм). Я вам привел пример, когда одно из них не срабатывает — этот пример поставил вас в тупик. В чем тогда ценность решения вашей конкретной задачи, если весь класс задач так не решается? В конечном счете вы могли просто собрать 10-низкоуровневых специалистов каждый по своей архитектуре и дать каждому посмотреть код глазами — и без всякого частотного анализа специалист по этой архитектуре ткнет пальцем «о — это мой». Т.е. равноценно обычному угадыванию… Например куча народу только глянув на первую страницу сможет подтвердить или опровергнуть гипотезу принадлежности к MCS51 по векторам 0-3-0b-13-1b и коду LJMP 02h. Или к Z80 по коду JP 0c3h и команде DI (0f3h) с которой все начинается в большинстве % случаев. (в АОН-о строении это веками наработанная практика, ибо как раз файл с одним и тем же названием легко мог принадлежать к одной из этих двух архитектур)…

Zolg Mar 26 2019 at 14:19

Уверен, они сделали гораздо больше количество параллельных допущений, большинство из которых не сработало. О том, которое сработало написали пост.
Как понимаете, это не про везение.

ps: ваш пример вообще не понял — ну перемешаны на плате линии данных для удобства разводки, что с того ?

emmibox Mar 26 2019 at 15:18

А то, что частотный анализ перестает работать. Точнее он работать будет но смысла не имеет, ведь за RET-ом не будет начала процедуры…

Я просто не вижу чем в данном конкретном случае частотный анализ, чем то лучше банального «угадывания» по набору априорных сведений об архитектурах — кроме того что он подразумевает писанину кода.

Zolg Mar 26 2019 at 19:32

А еще там мог оказаться байткод для брейнфакВМ(тм) (что, кстати, более вероятно, чем raw-образ прошивки для параллельной ПЗУ). Был бы другой вариант решения, что с того?

Я, кстати, практически уверен что в рассматриваемом случае собака зарыта в конвертации hex2bin.
Ждем продолжения истории.

katyrosomaha Mar 27 2019 at 13:16

Спасибо за комментарий, Вы абсолютно правы, все было именно так. Мы делали значительно большие допущений, экспериментов и всего остального, а написали только про то, что отработало.

Brak0del Mar 25 2019 at 17:46

Статья супер. Вопрос не совсем по теме, но близко: не пробовали ли реверсить прошивки ПЛИС?

katyrosomaha Mar 25 2019 at 18:19

Спасибо. Нет, не пробовали, но с удовольствием попробуем.

JerleShannara Mar 25 2019 at 19:52

С ПЛИСами есть одна засада — дойти до уровня RTL вполне себе может и получится, а вот далее полный швах.

nsmcan Mar 25 2019 at 19:44

Вы не упомянули о случае косвенной адресации, когда адрес перехода хранится в ячейке памяти. Возможно, это не очень распространено в прошивках, но очень часто встречается в бинарном коде — такие вещи, как высокоуровневые классы — это всегда таблица переходов для их методов, например.

vanxant Mar 25 2019 at 20:40

Да и switch/case тоже часто так компилится, особенно кстати в прошивках, когда, например, есть какой-то входящий последовательный протокол.

esaulenka Mar 26 2019 at 17:25

это если case'ы подряд идут и компилятор достаточно умный. а вот для
case 1:…
case 2:…
case 100500:…
ничего кроме связки условных переходов и не придумаешь…

katyrosomaha Mar 26 2019 at 12:52

Продолжение следует…

esaulenka Mar 26 2019 at 16:59

Нет, адреса методов невиртуальных С++ классов линкеру известны, и он, скорее всего, сделает вызов по константному адресу (исключений я не знаю. Впрочем, все архитектуры я тоже не знаю ;-) ).
Другой вопрос, что команд перехода может быть сильно больше одной (когда размер адресуемой памяти превышает размер регистра, фантазия проектировщика системы команд начинает бить ключом — может появиться пяток разных способов адресации в одном чипе).

Shpiler Mar 25 2019 at 22:06

Насколько часто компилятор проявляет энтузиазм, создавая подпрограммы там, где их не было в высокоуровневом коде? Зависит ли это от флагов оптимизации? А то бывают же случаи, когда на тыщу строк кода меньше десятка функции, да и то почти все — обработчики прерываний, тут бы поиск RET/CALL по статистике дал бы дубу. Я бы искал операции вроде ADD и MOV как самые часто встречаемые в вообще любой программе, а там уже по их кодам перебирал всевозможные контроллеры по каталогу

tyomitch Mar 26 2019 at 09:54

Насколько часто компилятор проявляет энтузиазм, создавая подпрограммы там, где их не было в высокоуровневом коде?

AFAIK, никогда. Зато часто делает наоборот — инлайнит подпрограммы, так что в бинарнике уже нету RET/CALL.

Я бы искал операции вроде ADD и MOV как самые часто встречаемые в вообще любой программе

Им соответствуют сотни кодировок в зависимости от операндов, так что частотный поиск уже не поможет.

katyrosomaha Mar 26 2019 at 12:53

В прошивках минимизируется размер программы. Inlining сильно увеличивает размер кода, при оптимизации размера программы, вряд ли будет использоваться.

yleo Mar 26 2019 at 02:01

На так давно помогал с прототипом защиты от подобного анализа для "мягких" процессоров.

Идейно защита достаточно проста — вставляется несколько скремблеров, в частности в шину данных и в декодер инструкций, конечно с зависимостью от адреса и ключа прошивки. Технически же сложности из-за необходимости экономить cells и latency, ну и возня с toolchain. Но получается очень неплохо, можно даже специально оставлять статистические bias/skew, которые при попытке их использовать уводят в совершенно неверном направлении ;)

katyrosomaha Mar 26 2019 at 12:56

Очень интересный опыт. Было бы интересно получить подробности работы.