Pull to refresh

Шифр Copiale Cipher XVIII в. расшифрован с помощью статистического машинного перевода

Reading time 4 min
Views 8.2K
Original author: John Markoff
Более 60 лет назад Уоррен Уивер, пионер в области машинного перевода, впервые предложил применить технику криптоанализа для интерпретации иноязычных текстов.

В известном письме 1947 года к математику Норберту Винеру он писал: «Вполне естественно задаться вопросом, можно ли проблему перевода рассматривать как проблему криптографии. Когда я вижу текст на русском языке, я говорю: «На самом деле это написано на английском, но закодировано какими-то странными символами. Сейчас попробую расшифровать»».

Эта догадка привела в итоге к разработке целого поколения программ статистического машинного перевода, таких как Google Translate — и, неслучайно, к появлению новых инструментов для анализа исторических шифров».

Сейчас группа шведских и американских лингвистов применила техники статистического машинного перевода для взлома одного из самых трудных шифров: Copiale Cipher, рукописного 105-страничного манускрипта конца XVIII века. Учёные опубликовали свою работу в преддверии конференции Ассоциации компьютерной лингвистики в Портленде.



Обнаруженный среди научных архивов Восточной Германии, том в искусном переплёте из золота и зелёной парчи содержит 75000 символов текста, в непонятном сочетании таинственных символов и латинского шрифта. Название манускрипта Copiale Cipher присвоено по одной из всего лишь двух незашифрованных надписей, которые присутствуют в документе.

Кевин Найт (Kevin Knight), специалист из Института информационных наук в Университете Южной Калифорнии, совместно с коллегами Беата Медьяши (Beáta Megyesi) и Кристианой Шефер из Уппсальского университета (Швеция) сумели дешифровать первые 16 страниц. На них содержится подробное описание ритуала тайного общества, которое интересовалось глазной хирургией и офтальмологией.


Первая страница манускрипта


Вторая и третья страницы манускрипта

Работа началась в этом году как хобби на выходные, сказал д-р Найт во время интервью и добавил: «У меня нет особого опыта в криптографии. Мои занятия связаны, главным образом, с компьютерной лингвистикой и машинным переводом».

Не зная языка оригинала, исследователи сделали несколько слепых предположений, прежде чем начали проверять свои догадки. Во-первых, они предположили, что вся информация содержится только в латинских символах ( на иллюстрации), то есть попробовали просто игнорировать абстрактные символы. Они взяли латинские символы и проверили текст на 80 языках мира.

Когда этот подход провалился, учёные обнаружили, что текст на самом деле создан шифром подстановки — таким шифром, при котором каждый символ оригинала заменяется на другой символ. И они предположили, что языком оригинала является немецкий, поскольку манускрипт нашли в Германии.

В конце концов, они пришли к выводу, что латинские символы на самом деле являются так называемыми «пустыми значениями», которые призваны ввести в заблуждение дешифровщика, и что некоторые особые символы обозначают пробелы между словами. Вторым прорывом стало открытие, что двоеточие означает удвоение предыдущего согласного.

После этого исследователи использовали известные техники машинного перевода, как анализ ожидаемой частотности символов, чтобы предположить, какие символы являются эквивалентом букв немецкого алфавита. Первым делом они вычислили, какое сочетание символов соответствует часто встречающемуся в немецком языке сочетанию ch.



Когда это выяснилось, частотный анализ подсказал, какой символ соответствует букве t, которая в немецком языке чаще всего следует за сочетанием ch. И так далее, шаг за шагом, были подобраны все остальные символы. Учёным не удалось расшифровать только большие символы (), которые, вероятно, являются кодовыми обозначениями засекреченных имён и организаций.



«Оказалось, что для криптоанализа мы можем применить многие лингвистические методы», — говорит д-р Найт.

Результат высоко оценили другие эксперты: «Расшифровка Copiale Cipher является изящной работой Кевина Найта и его коллег», — сказал Ник Пеллинг (Nick Pelling), британский разработчик ПО и специалист по безопасности, который ведёт блог Cipher Mysteries, посвящённый новостям в области криптографии.

Но хотя этот шифр стал заметным успехом, д-р Найт и его коллеги не могут почивать на лаврах. Они с разочарованием говорят, что до сих пор остались нерасшифрованными много древних книг и целых языков, которые представляют собой большую историческую ценность.

Copiale Cipher интересен разве что историкам, которые изучают распространение политических идей. Тайные общества были в моде в XVIII в., говорит д-р Найт, и они в определённой степени повлияли на события Великой Французской революции и войны за независимость США. Недавно Кевин Найт отправил расшифрованный текст Copiale Андреасу Оннерфорсу (Andreas Onnerfors), историку из Лендского университета (Швеция), эксперту по тайным обществам.

«Когда он увидел книгу и расшифрованную версию, он был чрезвычайно взволнован, — говорит д-р Найт. — Он обнаружил политический комментарий в конце текста, где говорилось о неотъемлемых правах человека. Это довольно интересно, что такие вещи обнаружены в столь раннем документе».

Последние примеры до сих не раскрытых шифров — письма серийного убийцы по прозвищу Зодиак, отправленные в полицию Калифорнии в 1960-е и 1970-е годы и скульптура Kryptos с зашифрованным текстом, расположенная перед центральным офисом ЦРУ в Лэнгли, текст на которой только частично расшифрован.

Но самой главной загадкой для криптографического сообщества, настоящей «Чашей Грааля» криптографического мира, остаётся рукопись Войнича — таинственная книга, написанная около 600 лет назад неизвестным автором на неизвестном языке с использованием неизвестного алфавита. Она состоит из 240 богато иллюстрированных страниц с текстом, который бросает вызов лучшим криптографам мира. Долгое время специалисты считали это розыгрышем, но недавно проведённый радиоуглеродный анализ подтвердил, что документ создан в начале XV в.

Совместно с коллегой из Чикагского университета, д-р Найт в этом году опубликовал подробный анализ рукописи, в котором не даёт ответа на вопрос о мистификации, но приводит свидетельства того, что рукопись Войнича содержит некоторые структуры естественного языка.

«Это самая таинственная рукопись в мире, — говорит Кевин Найт. — Она битком набита паттернами, и тот, кто создал подобную вещь, потратил на неё огромное количество времени. Так что мне кажется, что это, вероятно, шифр».
Tags:
Hubs:
+81
Comments 38
Comments Comments 38

Articles