AndreySitaev Aug 15 2020 at 19:51

Попытка определить язык манускрипта Войнича, Random Forest Classifier

9 min

20K

Cryptography*Python*

+47

Comments 79

WondeRu Aug 15 2020 at 20:35

Андрей, Вы не пробовали прореживать текст рукописи? Например, случайным образом удаляя некоторые абзацы? Возможно, не весь текст написан единым «шифром».

AndreySitaev Aug 15 2020 at 20:40

Вы случайно не читали Замок девушки в белом? Лаура выбросила часть текста, ориентируясь на стихотворный размер :)
Как я понимаю, исследователи рукописи не нашли каких-то значимых отклонений в распределении частоты употребления символов по тексту. Сам же я пока не смотрел…

Все же я, ориентируясь на чужие доводы, скорее полагаю, что рукопись написана на естественном языке. Но вообще, искать какие-то закономерности в рамках глав (на счет абзацев — не уверен) — это как раз в планах.

Mingun Aug 15 2020 at 20:49

Ваш анализ основан на выделении слов, которые определяются пробелами в исходной рукописи. Что, если разбивка рукописи на слова была намеренно нарушена? И на самом деле границы слов проходят вовсе не там, где нарисованы пробелы? Можно как-то избавится от этой слабости?

AndreySitaev Aug 15 2020 at 21:14

Интересная идея. Конечно, такой вариант написания возможен (хотя чем руководствовался автор текста?). Но вопрос — а к чему вообще привязываться в тексте:

Нет известных исторических имен.
Нет известных светил в «астрологическом» разделе.
Нет индийских / римских цифр.

Алгоритм разделения букв на гласные / согласные тоже дает не очень уверенные результаты (меняются от страницы к странице, если прогонять алгоритм постранично).

Стоит ли попробовать N-произвольных разбиений текста? Надо подумать…

Oxoron Aug 16 2020 at 11:21

Алгоритм разделения букв на гласные / согласные тоже дает не очень уверенные результаты (меняются от страницы к странице, если прогонять алгоритм постранично).

Результаты меняются именно для каждой страницы, или возможны другие принципы разбивки? Количество гласных-согласных остается одинаковым для каждой из страниц?

Ig_B Aug 16 2020 at 17:19

Может daiin это имя?

LynXzp Aug 21 2020 at 02:04

(хотя чем руководствовался автор текста?)

Шифром простой замены например. Если так то пробовать N=количеству_букв разбиений текста.
Но комментарий novoselov ниже с высокой степенью вероятности указывает что пробелы там где должны быть.

novoselov Aug 16 2020 at 08:08

Если пробелы расставлять в случайных местах, то одинаковые слова будут встречаться реже.

Adler_lug Aug 15 2020 at 21:08

Что скажете об этом — arxiv.org/ftp/arxiv/papers/1604/1604.04149.pdf?

AndreySitaev Aug 15 2020 at 21:33

Манускрипт может оказаться стеганограммой, а, например, один из «астрологических» кругов — ключом. Статья интересная, надо будет попозже прочитать вдумчиво. Но вот возникло впечатление, что автор делает очень смелые выводы уже изначально: например, трансформируя рисунок утки в буквы.

Я, всё же, был нацелен на отработку гипотезы естественного языка. Если она себя исчерпает (или же я просто сдамся) — тогда можно обратиться к шифрам.

halted Aug 31 2020 at 10:04

Помнится алхимики использовали шифры и астрологию для своих записей. Что любопытно, рукопись относится к 15-му веку, примерно в это же время алхимия становится достаточно популярной, чтобы папа Римский запретил ее в начале 16-го века.
Еще одной особенностью алхимиков было то, что они свои рецепты записывали скорее как философское учение о мире, чем как конкретную рецептуру, что в принципе укладывается в тренды того времени — подгонять свои исследования под астрологию и шифровать, чтобы избежать обвинения в ереси (вспоминаем Джордано Бруно и его увлечения магией с известным финалом, кстати та же эпоха).
Версия о причастности текста к алхимии или медицине может говорить в пользу шифровки текста наполненной именами собственными, а дальше уже как фантазия позволит, слова запросто могли быть написаны задом наперед или для чтения в зеркале. Имхо, анализ популярных методов шифрования того времени может немного помочь.

halted Aug 31 2020 at 10:41

del

liddom Aug 15 2020 at 21:38

Интересно было бы часть рукописи скормить, например, gpt3 и посмотреть на результат.

tyomitch Aug 15 2020 at 22:27

Почему "και (и)" отмечено звёздочкой как «слово, которому трудно подобрать русский эквивалент»?
В викисловаре союз «и» — его единственное значение.

По сути статьи: www.voynich.nu/a3_para.html заканчивается словами «The results presented in this page are critally important for anyone interested in translating the text of the Voynich MS. The fact that structures like the ones introduced in this page exist, tells us that the MS text is not one that was encrypted from an Indo-European plain text using the type of encryption available in the early 15th Century. Any tentative solution working along these lines will necessarily fail.»
В свете этого хотелось бы понять, почему для сравнения рассматриваются именно европейские языки.

AndreySitaev Aug 16 2020 at 00:21

На счет "και (и)" — это, пожалуй, я допустил помарку. С союзом "και" как раз всё ясно. В отличие от союза τε.

Почему европейские языки? Конечно, было бы неплохо искать наиболее близкий язык среди более вероятных кандидатов. А те языки, что есть, собраны, прежде всего, для обучения модели.

На очереди вот этот арамейский корпус. Надеюсь, там найдется в достаточном количестве (хотя бы десяток) текстов нужного объема.

tyomitch Aug 16 2020 at 11:04

Не факт, что европейские языки — это более вероятные кандидаты.

Во-первых, статистические закономерности в тексте манускрипта никак не увязываются с европейскими языками.

Во-вторых, использование уникальной письменности выглядит намного правдоподобнее в предположении, что манускрипт написан носителем экзотического языка, у которого не было общепринятой письменности — например, вьетнамцем или ацтеком, получившим средневековое европейское образование, и решившим записать поверья своего народа.

karavan_750 Aug 15 2020 at 22:35

Также убрал из текстов цифры

Если из текста для обучения модели убирать цифры, не ломает ли это сам текст, его смысл?
В тексте манускрипта, возможно, присутствуют числительные вместо цифр.

AndreySitaev Aug 16 2020 at 00:15

Вот как раз числительные я не убирал из текста. Почему убрал цифры? Всё же, маловероятно что в тексте рукописи они есть. По распределению букв этого не видно.

Есть, конечно, вариант что все буквы — на деле цифры, отсылки к тексту («Грехи отцов» в Швейке) — но это уже совсем нереалистично.

karavan_750 Aug 16 2020 at 04:20

Я имел ввиду вместо удаления цифр подмену их числительными.

Ig_B Aug 16 2020 at 17:22

Искали ли слова, состоящие только из какого-то ряда букв (10-12) предполагая их цифрами?

ihouser Aug 15 2020 at 22:38

А почему бы вам для начала не попробовать определить языковую группу? Если будете уверенны в языковой группе, легче будет подобрать подходящие данные для определения языка.

AndreySitaev Aug 16 2020 at 00:22

Пока нет идей, как это сделать. Одно можно сказать определенно — текст написан слева-направо, что сужает поиск :) Руническое письмо скандиндинавов, очевидно, тоже отбрасываем.

ihouser Aug 16 2020 at 00:54

Потренируйтесь на хорошо вам знакомой группе — славянской. Каким то образом, ваш мозг может узнать в незнакомом языке славянские корни? Есть что то общее. Возможно это вычислить?

vaslobas Aug 16 2020 at 12:47

Всё уже украдено до нас (С).

Можно поизучать труды, например, Сергея Старостина. Он занимался походими проблемами. Или любых других лингвистов, которые занимались схожими проблемами.

halted Aug 31 2020 at 13:40

А вот совсем не факт, что слева направо написан.
Если это документ для применения, то сильного шифрования там не должно быть, т.к. он должен читаться достаточно бегло.
Имхо, выявление склонений в словах может помочь определить группу языков, а так же направление текста.
Если предположить, что текст надо было читать через зеркало, то сам тип шифрования вряд ли будет сложным, а окончания слов будут менять в их начале.
Судя по документу, в тексте присутствует мешанина из описания мира, свойств растений и их применения.

немного моей фантазии )

Заголовок спойлера

Взял отсюда скан манускрипта, долистал до 14й страны, зеркально отразил в Пейнте и предположил, что это итальянские слова с искаженным почерком, дальше некоторые слова по наитию в гугл-переводчике забивал как итальянские (т.е. латынь)

Po (немного)
petto (грудь)
poss (возможный)
passto (прошлое)

Catdroid Aug 16 2020 at 00:11

Интересно, а как «suburbs» превратилось "συμπυρμπσ"? Я тоже как-то пробовал в деле одну библиотеку на Java для транслитерации (одну из самых популярных, вроде бы ICU4j), и она то-ли оставляла как есть некоторые русские буквы, то-ли вставляла вместо них какие-то непонятные символы юникода. В итоге 10 строчек кода решили проблему лучше всяких багованных библиотек.

AndreySitaev Aug 16 2020 at 00:12

Прежде всего, наша согласная «б» записывается нетривиально в греческом.

qadmium Aug 16 2020 at 01:01

в современном греческом нет буквы для обозначения звука б (то что обычно называют бетой это на самом деле вита), поэтому для этого используются две буквы мю и пи.
например
μπίρα (бира, пиво)
μπανάνα — банан

только вот я не уверен насчет конкретно этого примера с suburbs, насколько помню греки μπ в середине слова произносили не как б а скорее как мб. хотя меня может и слух подводил

tyomitch Aug 16 2020 at 11:16

Вроде бы, в середине слова тоже «б»: κόμπρα /ˈcɔ.bɾa/

Но почему не σουμπουρμπς?
Во-первых, υ читается как «и», а не как «у».
Во-вторых, σ на конце слова пишется иначе.

AndreySitaev Aug 17 2020 at 17:08

Разумеется, транслитерация может быть некорректной. С транслитом En -> Ru пакет вообще справился на 3 с двумя минусами. На всякий случай, вот здесь лежат маппинги пакета Transliterate из моего примера.

old_bear Aug 16 2020 at 04:41

Но если рукопись — бессмысленный набор букв пера шаловливого монаха, дворянина в измененном сознании? Нет, однозначно нет. Бездумно шлепая по клавишам, я, например, изображу всем привычный модулированный QWERTY-клавиатурой белый шум наподобие “asfds dsf”. Графологическая экспертиза показывает: автор писал твердой рукой набитые “в подкорку” символы хорошо известного ему алфавита. Плюс корреляции распределения букв и слов в тексте рукописи соответствуют “живому” тексту.

А вариант шизофрении автора никто не рассматривал? Или другого расстройства психики.
Многие люди страдающие такими расстройствами весьма уверены в себе и конкретны в своих действиях.

RomanVZ Aug 16 2020 at 10:36

Почему идея о психических заболеваниях авторов то и дело всплывает для нерасшифрованных письменностей? То же самое с ронго-ронго, предлагавшиеся расшифровки одна другой краше: у одного расшифровщика все тексты про маниакальных колхозников, бесконечно сажающих и пожинающих разные сельхоз-культуры, у дргого — про то что все со всеми беспорядочно совокупляются, у третьего — что тексты про то, как мужик жену убил… Одни и те же тексты, а каков простор для фантазии!

halted Aug 31 2020 at 14:23

То, что сейчас считается шизофренией, раньше считалось проявлением потусторонних сил.
Да и само понятие психических отклонений появилось много позже, так что речь скорее об оккультизме.

vaslobas Aug 16 2020 at 12:52

Как я понимаю, неизвестный язык практически невозможно понять не имея текста с переводом на известный нам язык. Как было, например, с Розеттским камнем.

То есть до Роззетского камня древнеегипетских текстов было полно, но вот расшифровать их не могли. А появился перевод и пошло дело.

tyomitch Aug 16 2020 at 13:36

Да вроде и без двуязычных текстов справлялись, например с линейным Б и с майянским письмом.

dmitryredkin Aug 16 2020 at 23:00

Какая шизофрения? Все, буквально все улики (как сам текст, так и иллюстрации) говорят о том, что это — мистификация, попытка придумать некую таинственную алхимическую книгу (скорее всего, с целью продать её какому-то ценителю), изготовленная примерно в XV веке.

P.S. На самом деле единственный шанс придать этому всему некоторый смысл — это стеганография. Но в этом случае все попытки статистического анализа совершенно бесполезны.

AndreySitaev Aug 17 2020 at 17:12

Тогда шизофреник должен оперировать осмысленными словами, составляя из них бессмысленный текст. Какие-то паттерны прослеживаются и на уровне символов, и на уровне слов, и на уровне N-грамм…

В любом случае, перевод манускрипта — челлендж per se. Никто не ждет ответа на загадку тысячелетия, или, например, рецепта вечной молодости :)

v1000 Aug 16 2020 at 08:22

При решении задачи полезно знать результат. В том смысле что там вообще есть смысл. К примеру, недавно кумранские рукописи признали подделкой

-1

YuraLia Aug 16 2020 at 10:26

Вы об этом? ru.wikipedia.org/wiki/%D0%9A%D1%83%D0%BC%D1%80%D0%B0%D0%BD%D1%81%D0%BA%D0%B8%D0%B5_%D1%80%D1%83%D0%BA%D0%BE%D0%BF%D0%B8%D1%81%D0%B8#%D0%92%D1%8B%D1%8F%D0%B2%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%BF%D0%BE%D0%B4%D0%B4%D0%B5%D0%BB%D0%BE%D0%BA_%D0%B2_%D0%BA%D0%BE%D0%BB%D0%BB%D0%B5%D0%BA%D1%86%D0%B8%D0%B8_%D0%9C%D1%83%D0%B7%D0%B5%D1%8F_%D0%91%D0%B8%D0%B1%D0%BB%D0%B8%D0%B8_%D0%B2_%D0%92%D0%B0%D1%88%D0%B8%D0%BD%D0%B3%D1%82%D0%BE%D0%BD%D0%B5
Там речь идет об одном конкретном музее, который купил в октябре 2017 эти фрагменты, но никак не об оригинальных рукописях.

v1000 Aug 16 2020 at 12:55

Я наоборот думал что проверка в однлм музее ставит под сомнение все остальные находки. Особенно учитывая как легко и как много их находили. Про сабж похожая ситуация, когда он много раз из рук в руки переходил. Хотя то, настолько он замороченно написан, заставляет сомневаться что это банальная подделка.

michael_v89 Aug 16 2020 at 08:27

В тексте часто повторяются последовательности вида o&, 8g, anv, встречаются на конце почти каждого слова и отдельно. Можно предположить, что они кодируют отдельные буквы, то есть это все-таки какой-то шифр подстановки.

michael_v89 Aug 16 2020 at 18:24

Частота появления iin напоминает частоту появления окончания um в латинских текстах.
Я взял несколько латинских текстов отсюда и посчитал скриптом окончания слов.

По частоте можно предположить такое соответствие:

iin - um

edy - is
ody - us
eey - it

hey - et
hdy - es

Начиная со второго окончания можно заметить соответствие dy - s, ey - t, поэтому я и выбрал такие варианты, но um выбивается из этого правила.

С другой стороны, если проверять по частоте целых слов, есть 2 популярных слова daiin и aiin. По схожести подходят только est и et, но тогда шифр сложнее. Возможно, какие-то соответствия слогов записаны задом наперед.

AndreySitaev Aug 17 2020 at 17:17

Да, daiin портит картину. Не может (?) существительное (...iin -> ...um) встречаться так часто.

keleg Oct 27 2020 at 19:47

а если это, как в арабском, только согласные буквы, а гласные подразумеваются?

AlexPancho Aug 16 2020 at 09:32

для вашего корпуса текстов могу подсказать идею — брать тексты религиозных источников. Например, для Библии можно найти тексты всех книг на множестве языков и алфавитов.
То же самое касается более восточных текстов — индийских, китайских. Кроме того дл некоторых текстов доступна транслитерация в латыницу

Lelant0s Aug 16 2020 at 10:11

Поскольку уже доказано неоднократно, что язык Манускрипта Войнича прекрасно вписывается во все возможные языковые паттерны (у них есть спец. название, но я не помню навскидку) романо-германской языковой группы, то вряд ли это шифр. Не представляю себе, чтобы после ЗАшифровки данные могли бы вписываться в законы НЕзашифрованного текста — слишком круто, мне кажется.

RomanVZ Aug 16 2020 at 10:30

Если бы это было так, Манускрипт уже перестал быть загадкой. Даже не имея корпуса именного того языка, на котором составлен шифр, можно получить неплохие расшифровки, воспользовавшись корпусами для родственных или более поздних языков.

Lelant0s Aug 17 2020 at 15:31

В этом и прикол, что структурно это европейский язык, а метод Шампольона к нему не применишь хоть тресни. Над этим серьезные дяди от лингвистики бьются ни один год — уж много чего перепробовано, не извольте сомневаться.

-1

RomanVZ Aug 17 2020 at 17:07

Поймите, верное предположение о том, что за язык перед нами, равносильно расшифровке. Даже если сам этот язык в записях едва сохранился, а есть только родственные ему языки.

То есть, например, древне-церковнославянский текст, записанный глаголицей, если мы прикинемся, что глаголицы не знаем, можно прочитать, использовав более поздние тексты на кириллице, написанные на древне-новгородском языке.

Lelant0s Aug 17 2020 at 17:39

Структура языка совершенно точно (в этом исследователи уверены на 100%, как я понял) говорит о том, что это ЯЗЫК. Может и шифровка, может и бред сивой кобылы по смыслу, но в первую очередь — язык. Структурно. И это важно, т.к. сымитировать структуру реального языка (живого ли, мертвого ли — привет, латынь!) крайне сложно, если вообще возможно. Это то, о чем я говорю. И важно зафиксировать, что максимум что известно — языковая группа: романо-германская. Пишут тут еще про иврит и т.д., но насколько я помню, именно в разрезе структуры он близок именно к Р-Г группе. На предмет соответствий его с чем только ни сверяли, разумеется. Видимо отсюда и упоминания об иврите и проч.
Вы говорите о другом — если, условно, написать арабской вязью французский текст, то его можно дешифровать. Возможно, не знаю, этому нас не обучали. Но фишка-то в другом: Войнича написан неизвестной "вязью" и на неизвестном (по структуре) языке. Но глобально структура соответствует романо-германской группе.
То есть мы друг другу не противоречим в целом, просто я говорю, что 2 неизвестных в уравнении, а не 1. Ну или если угодно, одно неизвестное имеет некие косвенные признаки, но "известнее" от того не становится.

RomanVZ Aug 17 2020 at 18:22

Для получения чернового варианта расшифровки достаточно было бы взять корпус текстов других романских языков, найти для него частоту n-грамм и применить к тексту Манускрипта один из алгоритмов для дешифровки омофонической замены, использующий найденные частоты.
Когда вы видите очередную новость о том, что кто-то расшифровал манускрипт Войнича, то смотрите всего на две вещи: на каком же он языке и есть ли коротенькая табличка с соответствием символов текста каким-нибудь определенным буквам. Если этого в новости нет, дальше можно и не читать — расшифровка не найдена.

Lelant0s Aug 17 2020 at 20:00

Омофоническая замена как раз-таки и не канает, ибо по признакам — это язык, а не шифр. Мы пришли к тому, с чего я начал. :-)

tyomitch Aug 18 2020 at 09:25

сымитировать структуру реального языка (живого ли, мертвого ли — привет, латынь!) крайне сложно, если вообще возможно

Вы серьёзно?
en.wikipedia.org/wiki/List_of_constructed_languages#Artistic/fictional_languages

Lelant0s Aug 18 2020 at 09:40

Вы реально не видите разницы между "создать искусственный язык" и "создать язык, соответствующий в матем. моделях натуральному языку"? :-)))))
Можно договориться, что "йцукенд" это "хлеб", но он от этого не впишется в логику придуманного языка так, как "хлеб" вписывается в русский, "bread" в английский, "brot" в немецкий и т.д.
Надеюсь, теперь вам ясно.

tyomitch Aug 18 2020 at 09:46

Тогда поясните, каким именно образом daiin «вписывается в логику» языка МВ.

Lelant0s Aug 18 2020 at 11:27

Вам нужно адресовать этот вопрос исследователям, проводившим этот анализ — очевидно же. Мое личное мнение, что вы с каждым сообщением закапываете себя всё глубже, но у вас, видимо, прямо противоположное видение ситуации.

-1

tyomitch Aug 18 2020 at 11:46

Я бы охотно им его адресовал, но вы же не раскрываете имена исследователей, якобы получивших такие результаты.

michael_v89 Aug 16 2020 at 10:40

Ну фразы типа "фаслишфаком факруфато" тоже вписываются во все языковые паттерны, но это тоже своего рода шифр.

-1

tyomitch Aug 16 2020 at 11:21

Можно пруф того, что «доказано неоднократно, что язык Манускрипта Войнича прекрасно вписывается во все возможные языковые паттерны романо-германской языковой группы»?

Lelant0s Aug 17 2020 at 14:26

Этот факт был упомянут в нескольких статьях о манускрипте, которые, разумеется, я в закладках не храню, так что ссылок не будет. Но именно этот факт мне запал в душу больше всех, ибо как лингвист по образованию я понимаю насколько сложно создать по сути новый язык. А как человек, дружащий с логикой, я понимаю, что создать шифр, результат которого будет соответствовать паттернам живого языка, на грани нереального. Этим я и поделился в своем комменте.

tyomitch Aug 17 2020 at 16:53

Кроме «язык романо-германской группы» и «по сути новый язык», есть ещё масса вариантов. В википедии пишут, что язык МВ пытались отождествить с баскским, с берберским, с древнетюркским, с китайским, и т.д., потому что как раз «паттернам романо-германской языковой группы» он соответствует хуже всего — например, в нём нет предлогов и артиклей.

RomanVZ Aug 16 2020 at 10:23

Если Манускрипт написан на естественном языке, то определение этого языка равносильно расшифровке через несколько секунд при наличии корпуса и словаря. Тогда задача сводится к шифру омофонической замены, для которых за последние годы появились быстрые и надёжные алгоритмы:
1. S. Ravi, K. Knight Bayesian Inference for Zodiac and Other Homophonic Ciphers
2. A. Dhavari, R. Low, M. Stamp Efficient Cryptanalysis of Homophonic Substitution Ciphers
3. M. Nuhn, H. Ney, J. Schamper Beam Search for Solving Substitution Ciphers
4. M. Nuhn, H. Ney, J. Schamper Improved Decipherment of Homophonic Ciphers
5. N. Kopal Cryptanalysis of Homophonic Substitution Ciphers Using Simulated Annealing with Fixed Temperature
6. F. Foxon Finding Probable Frequency Sums to Reduce the Key Space of Homophonic Substitution Ciphers

anatoly314 Aug 16 2020 at 12:24

Так вроде уже определили, что написан на Иврите? https://www.timesofisrael.com/scientists-claim-to-crack-an-elusive-centuries-old-code-and-its-hebrew/

tyomitch Aug 16 2020 at 13:30

Если читать эту статью дальше заголовка, то в ней объясняется, что иврит исследователям примерещился.

UFO just landed and posted this here

Groramar Aug 16 2020 at 17:53

Интересен еще вопрос: из каких материалов выполнен манускрипт? Бумага, чернила и другое. Его же на чем-то и чем-то физически писали? Может это окажет какую-то помощь?

tyomitch Aug 16 2020 at 18:15

В книге около 240 страниц тонкого пергамента (точное количество зависит от того, как считать некоторые страницы, сложенные дополнительно по горизонтали). На обложке нет никаких надписей или рисунков. Размеры страницы — 16,2 на 23,5 см, толщина книги — 5 см[11]. Пробелы в нумерации страниц (которая, видимо, была произведена значительно позже написания книги) указывают на то, что некоторые страницы были утеряны до обретения книги Вильфредом Войничем, изначально книга содержала не менее 272 страниц[1]. Текст написан гусиным пером чернилами на основе железистых соединений галловой кислоты, ими же выполнены иллюстрации. Иллюстрации грубовато раскрашены цветными красками — возможно, уже после написания книги[12][13].

Kemet Aug 17 2020 at 17:19

Похоже на скоропись

michael_v89 Aug 17 2020 at 19:49

Нашел интересную статью Voynich Manuscript coding and decoding methods, автор Alexander Ulyanenkov. С середины файла идет версия на русском. У него там все неплохо сходится. Если коротко — английский язык, стеганография, некоторые буквы обозначают повторения или развороты слогов, или удаление буквы из слога. Разобрано много примеров, которые это подтверждают.

tyomitch Aug 18 2020 at 09:43

Типичное лингвофричество в стиле Чудинова.

michael_v89 Aug 18 2020 at 10:04

Ну да, некоторые аргументы мне показались притянуты за уши, но подкупило большое количество примеров. Она довольно большая, я подробно не читал, может это и не доказывает ничего.

Amor-roma Aug 19 2020 at 22:26

Возможно эта рукопись была ценна в 1888)
Но сейчас ее ценность (достоверность, актуальность, целостность информации, а также применимость) под очень большим вопросом.
Доколе??
Ради шутки разума?)

moroz69off Aug 25 2020 at 22:56

распространенные последовательности из 2-х и 3-х одинаковых слов и частота их появления.

Как у вас считается частотность 2- и 3-грамм?
Я решал похожую задачу на шарпе словарями, подопытный текст "Гарри Поттер". Так и не сумел добиться хороших результатов, книга подвешивала программу на 5 минут.

AndreySitaev Aug 27 2020 at 22:11

Если я вас правильно понял — то всё просто, см github.com/AndreyCorelli/voynich_morph/blob/master/vman/apps/vnlp/training/detailed_dictionary.py, строки 70 — 89.

Создаю словарь (два словаря — для 2-грамм и 3-грамм) вида «N-грамм»: количество вхождений, (изначально равно 1). Проверяю каждую очередную пару слов на вхождение в словарь. Если уже есть в словаре — инкрементирую количество вхождений в словарь.

moroz69off Aug 31 2020 at 09:23

Спасибо, но не то пальто.
Не тот компот.
Это я решал такую задачу:

Пример
По тексту a b c d. b c d. e b c a d. должен быть составлен такой словарь:

1
"a": "b"
2
"b": "c"
3
"c": "d"
4
"e": "b"
5
"a b": "c"
6
"b c": "d"
7
"e b": "c"
8
"c a": "d"

Обратите внимание:
из двух биграмм "a b" и "a d", встречающихся однократно, в словаре есть только пара "a": "b", как лексикографически меньшая.
из двух встречающихся в тексте биграмм "c d" и "c a" в словаре есть только более частотная пара "c": "d".
из двух триграмм "b c d" и "b c a" в словаре есть только более частотная "b c": "d".

Я так понял, что при одинаковом счётчике нужно ещё сравнивать по другому фактору. Одинаковые счётчики я могу узнать только после прохода по всему тексту, потом лишний проход — дорого. Как-то нужно сразу ранжировать, только я не допёр — как.

ilya_mal Aug 27 2020 at 22:12

http://www.sci-news.com/othersciences/linguistics/voynich-manuscript-07190.html

AndreySitaev Aug 27 2020 at 22:13

Что-то в духе приведенной выше ссылки — arxiv.org/ftp/arxiv/papers/1604/1604.04149.pdf.
Пусть иные исследуют манускрипт как культурологический феномен — мне же интересен «чистый» NLP.

zj_28_01_60 Oct 1 2020 at 13:31

прежде всего надо уяснить текст ли это, а не фейк…
т.е. осмысленная информация или нет, неважно зашифрованная или нет…
если текст несёт информацию, он обязательно связан с картинками,
хотя они могут быть иносказательными… если взять картинку в публикации — ну наобум — задача Архимеда на вытеснение воды при неполном погружении плавающих тыкв… или набившие оскомину звёзды в космическом эфире…
потом… цифры могут быть написаны буквами, например — шесть… на любом языке, римские, арабские, египетские… ван, ту… один, два… унос, дуо… в том числе и даты.
ни кто не отменял и решётку Кардано… уж очень ровно текст написан…

dauliere Oct 1 2020 at 13:31

В тринадцатилетнем возрасте я совершенно так же придумал свою письменность — смешанную алфавитно-силлабическую, и писал свой дневник каллиграфическим пером на настоящем пергаменте на придуманном языке, имеющем основой мой редкий язык группы оиль (oïl). Результат был очень похожим. Тогда я не знал о рукописи Войновича, разумеется. Расшифровке такое 'личное' письмо не поддаётся.

Show the best of all time