Pull to refresh

Лингвистическая загадка. Переводим с «мертвого» языка

Cryptography
Ответ можно найти здесь — Лингвистическая загадка. Переводим с «мертвого» языка. [§2] Разбор полётов.

Навеяло постом «Продолжение дилетанта».

Хотя оригинал «Манускрипт Войнича. Маньчжурский кандидат» по своему шедеврален, с подходом с лингвистической стороны, изложенной makondo, я бы местами пожалуй не согласился. Но сам разбор полетов прочитал запоем. В отличии от «Продолжение дилетанта», имхо.

К слову, я никогда не понимал людей, пытающихся вот так — нахрапом брать подобные «лингвистические» задачи, и делать на основании (иногда даже огромной) проделанной работы, но базирующейся на сомнительных исходных выкладках, далекоидущие выводы.
А некоторые методы вообще доставляют, в криптографии их назвали бы — брутфорсом и серьезно к анализу «чего либо» так никто не подходит.

Все же, критиковать и холиварить здесь совсем не хочу, в качестве прикладного примера, накидал на коленке текст, написаный неизвестным «мертвым» языком. Это достаточно известная цитата из книги, которую, имхо, каждый «лингвист» должен как минимум поверхностно прочитать.
Ну и в общем-то совсем не шифр, просто набор правил морфемики и немного семантики (в части словообразования).

Скажем так, тот язык за многие лета претерпел некоторые изменения.

Собственно текст

მეაგ პგლოეზგასელ პაგდლრეოლმელეოგ გილრაგლახაგ მოლ კეუგლზდლიმეილ პეალკგლეგ სფაგიხაგ, ეპეალ ფაგსცლგიბიშჩულდგ პაგდლრეოლეუგლშჩეილ, დოლ ფაგშცელეოგეუგლტ პაგდლრეოლინეგილ. გილრაგელეო კეუგლზდლოლ სტიკეალ პაგდლრეოლმეუგლრეოლ პეალკგლეგ ელ კეუგლლდეოჩედგეგ პეალკლეამკეოლეგ. დოლ მეაგ პაგდლიტ უგ პეალკგლეგ კეუგლზდლეგ, ოლ უგ კეუგლზდლეგ პეალკგლეგ ბლგიდ რეცინოგ ნაენოგ, ეპეალ ეოგლ სცლგოშმაგ პაგდლრეოლმეუგლრ, ელ ნმაეუგლ ტოხგ პაგდლრეოლმეუგლგტაგ.

Задача — то же, но по-русски.

Все совпадения с действующими алфавитами случайны (и я ни в коем случае не хотел назвать какой-либо существующий язык — мертвым).

Ответ и исходник + стемер (туда-сюда) если попросят выложу в пост.

Под спойлером кечак-256 (SHA3) от моего ответа, текста в utf-8/lowercase, в одну строчку (вместо LF разделенный пробелами — т.е. все \s+ регэкспом заменены на \x20, в конце пробелов нет)…
собственно спойлер с SHA3-256 для моего ответа
e0b27382831ec6f684597e13b719566d917f0abd0a6f3013f34ea062cb31beb4

Просьба решениями не бросаться (ну дайте поиграться другим) — если вы таки решили загадку, выложите хеш от вашего ответа. Позже его можно будет проверить.

Удачи и да прибудет…

PS — «зашифрованный» текст — не является приглашением на работу, т.е. просто поиграться (just4fun)… Мне в частности интересно, кто в какие дебри залезет :) Но за потраченное вами время «фирма ответственности не несет»

PPS — (подсказка 1) Цитата действительно известная. К ней вашим покорным слугой было немного добавлено тексту (но со смыслом и в тему), чтобы значит:
  • увеличить зону для разбора и семантики
  • сим попытаться предотвратить жульничество (типа перебор + поисковик и т.д.).

PPPS — (подсказка 2) В некоторых вариациях «машинного перевода» возможна незначительная потеря точности (ввиду некоторых ограничений алфавита, в лингвистике такое встречается), но оригинальный текст должен явно читаться.
Разжевываю то что между строк — никаких сложных синтаксических оборотов, не присущих славянским языкам, тут специально нет.
Текст действительно небольшой, поэтому если нужны будут еще подсказки — выложу в пост.

UPD(1): Умерший язык из «славянской группы», читается слева направо (уточняю из-за непоняток в комментариях);
Следующий момент: я, в отличии от языка, пока живой, т.е. если что совсем уж не понятно — можно спрашивать :)

UPD(2): Пробелы и знаки пунктуации не трогал (даже не собирался) — я же понимаю, и так сложно все!

UPD(3): Пока на хабре невозможно удалять, или хотя бы сворачивать ветки, людям ищущим конструктив в комментариях, рекомендую первую ветку сразу проматывать.

UPD(4): FAQ из ЛС:

Q. retsinog naenog. По-поему «g» в конце слова или не читается, или обозначает множественное число? Хотя скорее первое.
A. Тепло, только «g» ли это, ну и почему «только», и уж раз (бессовестно) подсказываю — всегда ли в конце?

Q. [hidden text] Бьюсь над последним предложением — но похоже уже какой-то тупой подгонкой занимаюсь.
A. Близко, но если бы вы эти правила не руками, а например скриптом каким-нибудь делали, у вас видоизменялась бы вся фраза и я вам гарантирую вы бы уже узнавали собственно цитату, ну или отдельные слова из нее точно.

UPD(5): FAQ из ЛС:
Q. retsinog — «речено» — т.е. «сказано»?
A. Слова таким образом специально не заменял (иначе было бы в контексте этой задачи практически нерешаемо), слова изменены только как бы «акцентным» словарем (суффиксное, максимум слоговое словообразование).

UPD(6): Ну что вы как дети малые, мы же на хабре — ну почему все в уме?
Читаем вот здесь между строк «исходник + стемер (туда-сюда)» (все как-то проигнорировали) — значит «перевод» осуществлялся «машинным» способом, т.е. не руками, по этому мозг — это хорошо, мозг + компьютер — лучше.
Возьмите tcl, питон, любимое подставить и скриптите ..., потому-что руками простите я практически уверен, что шансов нет.
Для тикля ниже пара примеров под спойлером (если под линуксом tclsh, если под виндой wish из-за множественных кодировок).
проба пера на тикле ...
# исходный текст:
% set encText "мама мыла раму"
мама мыла раму

# изменяет текст ("суффиксы") regexp-ами:
% set decText [regsub -all {(м)[ау]\M} $encText {\1ы}]
мамы мыла рамы
% set decText [regsub -all {(л)а\M} $decText {\1и}]
мамы мыли рамы

# изменяет текст ("акценты") словарем ("о" на "а" и "а" на "о"):
% set decText2 [string map {о а а о} $decText]
момы мыли ромы
# плохо - ("ма" не торогать, "о" на "а" и "а" на "о"):
% set decText2 [string map {ма ма о а а о} $decText]
мамы мыли ромы

а теперь МАГИЯ ...
# а тепер магия ...
proc magic_text {args} {
  set text [lindex $args end]
  foreach {op val} [lrange $args 0 end-1] {
    switch -- $op \
    -regexp {
      foreach {re val} $val {
        regsub -nocase -all $re $text $val text
      }
    } \
    -map {
      set text [string map -nocase $val $text]
    } \
    -default {
      error "uknown operation '$op'"
    }
  }
  return $text
}

% set encText "мама мыла раму"
мама мыла раму
% magic_text -regexp {{(м)[ау]\M} {\1ы} {(л)а\M} {\1и}} -map {ма ма о а а о} $encText
мамы мыли ромы

# а теперь еще волшебней (однозначно отличаем слова, пометив начало ^ и конец $):
set pre {{(\m[^\s[:punct:]]+\M)} {^\1$}}
set post {^ "" $ ""}
% set encText "мама мыла раму, рама пищала и стонала."
мама мыла раму, рама пищала и стонала.
% magic_text -regexp $pre -map {^ма ма ла$ ли а$ ы у$ ы ра ро} -map $post $encText
мамы мыли ромы, ромы пищали и стонали.

# и с "грузинским" акцентом:
% magic_text -regexp $pre -map {^ма ма ла$ ли а$ ы у$ ы ра ро} -map $post -map {а ა и ი л მ м ნ о პ п ჟ р რ с ს т ტ у უ щ ჩ ы ძ} $encText
ნანძ ნძმი რპნძ, რპნძ ჟიჩამი ი სტპнამი.


Просто написать такое
% magic_text -regexp $pre -map {^ма ма ла$ ли а$ ы у$ ы ра ро} -map $post "мама мыла раму, рама пищала и стонала."
мамы мыли ромы, ромы пищали и стонали.
или крутить 1000 раз и делать в голове одни и теже ошибки — по моему, неподъемно даже гениям.

UPD(7): Добавлю пока подсказку…
Результаты транскрипции скриптовым «переводом» по составленому акцентному и слоговому словарю, используя морфологические (и отчасти синтаксический) фильтры для различных славянских языковых групп. Для анализа и морфологического разбора (с последующим составлением словоря), использовался давнишный уже Verity developer kit (VDK), с самописными фильтрами и расширениями сверху. Это не окончательный перевод, но близко к «оригиналу».
Скрытый текст
3a: ньох бхраьжхосьр бохдрльарньрьах хэрлохрогох нар кьухрждрэньэр бьоркхрьх сфохэгох, ьбьор фохсцрхэпэшчурдх бохдрльарьухршчьэр, дар фохшцьрьахьухрт бохдрльарэмьхэр. хэрлохьрьа кьухрждрар стэкьор бохдрльарньухрльар бьоркхрьх ьр кьухррдьачьдхьх бьоркрьонкьарьх. дар ньох бохдрэт ух бьоркхрьх кьухрждрьх, ар ух кьухрждрьх бьоркхрьх прхэд льцэмах моьмах, ьбьор ьахр сцрхашнох бохдрльарньухрл, ьр мноьухр тагх бохдрльарньухрхтох.

2b: меаг пглоезгасел пагдлреолмелеог гилраглахаг мол кеуглздлимеил пеалкглег сфагыаг, епеал фагсцлгибищулдг пагдлреолеуглщеил, дол фагсселеогеуглт пагдлреолинегил. гилрагелео кеуглздлол штикеал пагдлреолмеуглреол пеалкглег ел кеугллдеочедгег пеалклеамкеолег. дол меаг пагдлит уг пеалкглег кеуглздлег, ол уг кеуглздлег пеалкглег блгид рециног наеног, епеал еогл сцлгошмаг пагдлреолмеуглр, ел нмаеугл тохг пагдлреолмеуглгтаг.

2a: мэаг пглоэзгасэл пагдлрэолмэлэог гьлраглахаг мол кэуглздльмэьл пэалкглэг сфагьхаг, эпэал фагсцлгьбьшчулдг пагдлрэолэуглшчэьл, дол фагшцэлэогэуглт пагдлрэольнэгьл. гьлрагэлэо кэуглздлол стькэал пагдлрэолмэуглрэол пэалкглэг эл кэугллдэочэдгэг пэалклэамкэолэг. дол мэаг пагдльт уг пэалкглэг кэуглздлэг, ол уг кэуглздлэг пэалкглэг блгьд рэцьног наэног, эпэал эогл сцлгошмаг пагдлрэолмэуглр, эл нмаэугл тохг пагдлрэолмэуглгтаг.

1b: нёх бхраижхосир бохдрлярнирях херлохрогох нар кюхрждрениер бёркхры сфохегох, ибёр фохсцрхепещурдх бохдрлярюхрщиер, дар фохшциряхюхрт бохдрляремыер. херлохиря кюхрждрар стекёр бохдрлярнюхрляр бёркхры ир кюхррдячидхы бёркрёнкяры. дар нёх бохдрет ух бёркхры кюхрждры, ар ух кюхрждры бёркхры прхед лицемах моимах, ибёр яхр сцрхашнох бохдрлярнюхрл, ир мноюхр тагх бохдрлярнюхрхтох.
Варианты 3b и 1a нарочно отсутствуют, т.к. были настолько близки, что цитата практически читалась сходу. Да и в тех, что спрятал под спойлер, уже узнаваемо, имхо.
VDK к сожалению штука пропритарная, а руки все не дойдут переписать инструменты или хотя бы какую-либо часть анализатора для чего-нибудь типа Sphinx или Lucene.

Оригинальный же перевод осуществлялся «стемером» на тикле (обратный в том числе). Эти исходники (вместе с переводом) скоро выложу в пост, как обещал.
Only registered users can participate in poll. Log in, please.
Что делать дальше?
14.29% ничего не делать (дайте еще время) 3
0% выкладывать каждые 12 часов по одному слову в русской транскрипции 0
9.52% 02.07.2014 дать какую-нибудь подсказку посерьезнее 2
0% 09.07.2014 дать какую-нибудь подсказку посерьезнее 0
0% 02.07.2014 выложить всю фразу в русской транскрипции 0
4.76% 09.07.2014 выложить всю фразу в русской транскрипции 1
52.38% 02.07.2014 открыть карты (пост с разбором полетов) 11
19.05% 09.07.2014 открыть карты (пост с разбором полетов) 4
21 user voted. 4 users abstained.
Tags:манускрипткриптоанализлингвистикаанализ текстастатистический анализмертвые языки
Hubs: Cryptography
Total votes 38: ↑31 and ↓7 +24
Views27K

Comments 64

Only those users with full accounts are able to leave comments. Log in, please.
Системный анализ и Разработка требований в ИТ-проектах
May 15, 202129,000 ₽Systems.Education > Школа системного анализа и проектирования
Курс "Анализ данных на Scala 4.0"
May 18, 202165,000 ₽New Professions Lab

Top of the last 24 hours