Pull to refresh

Comments 64

Довольно странно наблюдать претензии на звание лингвиста, и, скажем так, довольное вольное обращение с языком
Или русский для вас неродной?
У автора во всем тексте ошибок меньше, чем у Вас в двух строчках. =) Да, и для ошибок в тексте есть ЛС.
Хоть я и не претендую на звание лингвиста, но орфографических ошибок у меня нет
Про «для ошибок в тексте ЛС» — вы не поняли сути комментария.
Я имел в виду, что если автор даже на знакомом языке пишет с ошибками, то угадайте, чем это чревато при написании «шифровки» и составлении хешей на незнакомом языке.
А можете для неуча пояснить момент про «составление хешей на незнакомом языке»?
>А можете для неуча пояснить
Так у вас ещё и со чтением проблемы, я смотрю.
Респект, что не смотря на все эти сложности, вы не бросаете лингвистику.

P.S.
но всё-таки спеллчекером проверьте свою шифровку, ну так, чисто на всякий случай
Зато есть синтаксическая. Перед «и» запятая не нужна, т.к. союз связывает не два предложения, а однородные дополнения.
>Зато
Глеб, когда закончишь потирать ладони с мыслями «Ох, как же я его уел… ай да Глеб, ай да сукин сын… какой же я красава — целую запятую усмотрел там, где никто не смог!!!», ты, пожалуйста, вернись обратно в реальность и вспомни о предмете разговора — лингвистике.
И сделай такой же замечательный и вдумчивый анализ последствий ошибки безграмотного летописца, который вместо «у кита нажористое мясо», напишет «у кота нажористое мясо»
Хотелось бы усшышать выводы от такого умного и проницательного человека, как ты, о том, как это повлияет на расшифровку и понимание смысла текста.
Было бы здорово увидеть в анализе хеши обеих фраз, это придало бы ему основательности и академичности.
Спасибо.
Вы, простите, троль?
А по теме, хеш на мой ответ приведен в большей степени для проверки меня родимого, позже, когда выложу свой ответ… Ответы хабравчан, буде они последуют, могут и будут вероятно иметь другие хеши. В остальном действует:
В некоторых вариациях «машинного перевода» возможна незначительная потеря точности (ввиду некоторых ограничений алфавита, в лингвистике такое встречается), но оригинальный текст должен явно читаться.
Но может такое случится, что кто-то усердный все же востановит оригинальный текст — к которому подойдет мой хеш. Я не думал что на хабре такие вещи нужно разжевывать.
>троль
> словянский
Что ж… Как говорил известный российский лингвист Иван Дорн: «Не надо стесняться»
Действительно, не надо стесняться, не всем же дана врождённая грамотность.

В связи с этим концепция меняется, коллеги.
Ведь никто не ожидает что летописцы, авторы, всевозможные переписчики могут написать огромные манускрипты без единой ошибки или описки. А за сотни лет манускрипты ветшают, некоторые символы могут терять своё первоначальное начертание, что может приводить даже к смысловым искажениям.
Поэтому при анализе текстов, опытные лингвисты делают всевозможные допущения при расшифровке.
«И на слух писал, и с неродного языка, итд, итп»

Поэтому энтропия, внесённая в текст вашей неидеальной грамотностью, даже привносит реализм, «перчинку», так сказать, в эту задачу
Зачем так многословно-то, можно ж было просто ответить «Да».
PS жалко, что самая первая, длиннющая и такая «конструктивная», ветка в статье не станет короче пока вас не заберет НЛО. Реквестую фичу на хабре, что-то как в Тостере «Пожаловатся», чтоб НЛО значит удаляла такие ветки — даже если за это нужно платить например частью кармы (чтоб не злоупотребляли).
Боже упаси, я без притензий — я больше по части компьютерных языков, а ошибки правда были (вычитал, поправил, спасибо).
Русский язык — родной, но лет так -дцать второй, что касается употребления, и третий — написания. Что поделать издержки иммиграции:) И да, про ЛС вам совершенно правильно заметили.
Я выполнил черную работу и привел текст в удобный для анализа вид, убрав иероглифы и заменив на русские буквы по частотному словарю. Дальше можно заниматься языком.

каие сеонауеипао сиетоманокаоане еромиеоибие кно лавеоуторкаро саиолеоае пчиербиея асаио чиепгоершрзхвоте сиетоманоавеозхароя тно чиезгаоанеавеод сиетоманорыаеро. еромиеаоан лавеоутоно пдрлаио сиетоманокавеомано саиолеоае ао лавеоотанхатеае саиолоаикланоае. тно каие сиеторд ве саиолеоае лавеоутоаея но ве лавеоутоае саиолеоае шоерт магрыне ыиаынея асаио анео пгоензкие сиетоманокавеомя ао ыкиавео днбе сиетоманокавеоедие.
Чтобы еще сильнее облегчить задачу, я разделил все слова на группы по степени «похожести», используя гипотезу, что в данном языке есть нечто вроде «корня». Я пока не знаю, что представляют из себя флексии, но выделяются следующие группы:

Группа коротких неизменяемых слов (скорее всего предлоги и/или местоимения, так как большая часть слов длинная):
каие
ве
асаио
кно
тно
но
ао
анео
днбе

Группа «несклоняемых» слов (возможно, просто отсутствуют другие словоформы):
пдрлаио
шоерт
магрыне
ыиаынея
пгоензкие
ыкиавео

Группы с флексиями:
сиетоманокаоане
сиетоманоавеозхароя
сиетоманорыаеро
сиетоманокавеомано
сиеторд
сиетоманокавеомя
сиетоманокавеоедие

еромиеоибие
еромиеаоан

лавеоуторкаро
лавеоутоно
лавеоотанхатеае
лавеоутоаея
лавеоутоае

саиолеоае
саиолоаикланоае
саиолеоае
саиолеоае

чиепгоершрзхвоте
чиезгаоанеавеод
Я один изучил весь список в надежде найти «глокую куздру»?

А если серъёзно, то мне очень интересно, как задачка будет решена (именно процесс решения), поскольку отрывок на моё взгляд слишком короткий. Ведь чтобы перевести с иностранного (пусто даже той же языковой группы) нужно ведь набрать некую статистику, словарь составить, грубо говоря.

Ну вот к примеру, сравнимая по длине цитата (тоже из языка славянской группы) навскидку из интернета:

«У гэтым сэнсе няўстойлівасць пазіцыі краіны, а значыць і кожнага асобнага носьбіта нацыянальнай ідэнтычнасці, спрыяе анарматыўнасці названай моўнай з’явы, абумоўлівае стыхійнасць ўзнікнення моўных адзінак і стыхійнасць іх актывацыі (трасянку ўжываюць не ўсе; некаторыя, хто яе не ўжывае, выкарыстоўваюць яе свядома як сатырычны сродак і толькі ў пэўнай сітуацыі).»

Разве можно на основе этой цитаты перевести на русский «моўнай з’явы» и «моўных адзінак» даже с учётом того, что другие слова в цитате типа нацыянальнай, названай и т.д. аналогичны русским? Я не лингвист, мне просто любопытно.
Не знаю, все, что я проделал выше — это практически все, что я знаю о лингвистике и анализе неизвестных языков. Просто попытался облегчить кому-то работу.
Согласен почти совсем, особенно насчет длинны. Может все-таки прикрутить еще текста?

Но все же почти, например, насчет статистики и словаря — тут такое дело — славянская группа имеет очень характерный синтаксис и морфологию. Кстати, тот же Щерба, упомянутой вами всуе «глокой» это наглядно показал;) А фраза кстати гораздо короче этого «отрывка».

Боюсь пока изъяснятся более конкретно, но нашли бы вы «бокрят» если бы оно было написано по-русски, но скажем даже не латиницей, а на мандарине, причем диалектом (в смысле написания слов), который умер сотню лет назад?
Кстати, насчет «моўных» думаю от «мовы» навскидку что-то типа «языковый», «адзінак» в контексте практически враз переводится «единиц или частей» (обусловливает стихийность возникновения языковых единиц).
Насчет «з’явы» затрудняюсь сходу (а разбирать после тяжелого трудового дня очень ленюсь), но думаю опять же по контексту, что-то типа проявление (от явь).
А что за язык? Все до боли знакомо, но все скребет, как-то… (как суржик после мовы, или наоборот).
Блин, еще раз прочитал «с белорусским акцентом» — вы совершенно правы! Я тоже куда-то сразу в дебри (о мертвых языках же разговор).
Ну вот я знаю украинский и понял тут почти все, и белорусский тоже почти сразу был детектед. Не понял только «трасянку».
«черную работу» это сильно сказано конечно (я надеюсь вы это не руками а скриптом каким-нибудь:).
Про иероглифы — это зря вы так про картвельский то алфавит (кроме-того, насколько я понимаю, иероглифы обозначают слоги и слова, но не отдельные литеры).
(Ниже) Просто попытался облегчить кому-то работу.
Вы уверены, что облегчили?
Нет выбор русского удобен и вообще оправдан (что в том 33, что в другом 33 буквы), но вот с «частотным словарем»…
Я про то, что например не все 33 грузинские буквы ложатся в 33 русские. Некоторые и довольно частоиспользуемые в русском буквы (как например «Ю») там отсутствуют;
(Задумчиво) может вам бы какой препроцессор до вашего анализа прикрутить?
Я про то, что например не все 33 грузинские буквы ложатся в 33 русские. Некоторые и довольно частоиспользуемые в русском буквы (как например «Ю») там отсутствуют;
.
В данном случае, как вы в статье заметили, совпадения с действующим алфавитом случайны. Поэтому фонетика языка нам неизвестна совершенно. Преобразование алфавита выполнено исключительно для удобства восприятия: наш мозг хорошо натренирован на распознавание и различение именно букв русского алфавита. А арабские, грузинские символы, иврит и т.д. для обычных русских — «на одно лицо».

Частотный словарь дает некоторую надежду корректно определить хотя бы некоторые гласные. Но это непринципиально. Мы просто исходим из того, что фонетика неизвестна, и произвольно назначенные русские буквы используются для облегчения различения букв неизвестного языка.

Далее можно, наверно, заменить совпадающие длинные последовательности букв на короткие и попробовать переназначить буквы заново по частотной таблице.
Только что поигрался с универсальным стемером слитым с транслятором в русский (не совсем частотный словарь) — первое слово как «каие» у меня ну никак не получается. Вариаций 20 прогнал, среди них много неправильных, но некоторые «ближе к телу», что ли.
Под спойлером первое слово в различных вариантах
киое, гиоа, меаг, меао, мэаг, миах, мьёг, ньох, ниое, ниах, ниох, мёх, кёг, ...
Какое и есть ли правильное среди них не скажу, пока (а то побьют еще камнями:)

Или может все же стоит, чтобы подстегнуть процесс где-нибудь под спойлером в посте раз в N часов по одному слову в русской кодировке выкладывать? Позже можно было бы и транскрипцию (произношение чуть ближе к оригиналу) прицепить…
Все же отрывок действительно короткий.
В этом нет никакой осмысленности, просто замены непонятных букв на понятные. Слово могло получиться совершенно произвольным, не нужно обращать внимания на то, как оно выглядит или звучит. Просто на родном языке проще анализировать, видишь какие-то закономерности.
видишь какие-то закономерности
Видишь или «думаешь» что видишь? Я к примеру про различие на лету в голове гласных и согласных — т.е. при «неправильной» их расстановке это больше мешает, имхо, чем помогает.
Речь не о том, чтобы видеть буквы. Речь о том, чтобы видеть закономерности.

Если мы анализируем язык — лучше сделать его хотя бы внешне похожим на язык, а не на кучку закорючек.
Эээ, а почему вы посчитали запятые за буквы? Все-таки, надеюсь, запятые в тексте автора — это запятые. Кстати, запятые сами по себе уже хорошая подсказка
А там есть запятые? Тогда я крупно облажался.

Впрочем, запятая у меня — это буква «я». Можно просто вычеркнуть ее.
Я ни разу не лингвист, но всегда было интересно – возможна ли в принципе расшифровка неизвестного языка, который не имеет никаких связей с известными? Например, получим мы текстовое послание из космоса – и что дальше с ним делать?
Да ничего, собственно.
Поэтому в космос шлют только числовые и графические послания.
Появилась фигура — извивающаяся, неуловимой формы, постоянно
изменяющаяся. Большая красная сфера, по теням можно было определить, что
это именно сфера, несмотря на двумерность картинки, а рядом с ней
маленькое голубое пятнышко. Пятнышко расползлось в голубую сферу, которая
частично перекрыла красную. Место пересечения сфер окрасилось в
промежуточный пурпурный цвет.

У Иво заработала интуиция. Он сосредоточил свои логические
способности на чертеже так же, как он делал это при игре в спраут.

Это было иллюстрированное представление теории групп с обобщением на
Булеву алгебру и с цветом, как дополнительным параметром. После теории
групп начинающему можно было преподавать математику, логику, электронику и
другие области знания — не прибегая к речевой форме. Язык можно сам по
себе эффективно анализировать этими методами. Одна головоломка решена: у
инопланетян было доступное средство общения.
(с) Пирс Энтони, «Макроскоп»
Ну вот я как-то сомневаюсь что теорія групп лучший кандитат для космических посланий. ) Я бы начинал с евклидовой геометрии.
Прямо в точку: основная мысль, которую попробую развить после разбора полетов — математическим языком говоря, решается ли уравнение с огромным количеством неизвестных, когда мы на основании сомнительных выводов, процентов на 10 этих неизвестных «надумали» (ну там картинка подсказала, о это жеж заяц… или суслик… может мышь..., короче грызун… не, может все-таки сумчатое… а вдруг там про мех — блин, не понятно пушистый или грубый и т.д.).
А остальные 90 процентов неизвестных связаны меж собой совершенно чуждой непонятной логикой, а мы по незнанию пытаемся их подстроить под логику сохранившихся языков.

Это, если что, я сейчас в контексте манускрипта того же Войнича, не про мою задачу.

Однако смею предположить, что послание даже чуждого нам разума, вероятно будет в разы легче разобрать, чем уже упомянутый манускрипт, по одной простой причине: он, когда отправлял, хотел чтоб его послание расшифровали.
Создававшие же те манускрипты, знать не ведали, что через какую-то сотню лет язык станет напрочь вымершым (или в случае шифра, что ни одного члена тайной организации не останется).
Древнеегипетскую письменность, насколько знаю, позволил расшифровать только розеттский камень. И то только потому, что на нем текст, кроме египетских иероглифов, был написан и на известном древнегреческом.
В расшифровке совсем неизвестных языков есть несколько глобальных проблем. Неизвестно назначение символов (это буква, слог или целое слово? Или вообще какой-нибудь служебный символ?). Неизвестно значение слов, если язык действительно мертвый. Возьмите первое попавшееся слово любого языка, который не знаете абсолютно, и попытайтесь понять без словаря что оно означает )) Кстати, при расшифровке неизвестной письменности неизвестно даже в каком направлении ее правильно читать. Короче, задачка та еще. Практически нереальная.
Лем, «Глас Господа». Не знаю какую цитату выбрать — просто прочтите целиком, оно того стоит.
У Лема добрая часть произведений посвящена затруднениям или невозможности не то что коммуницировать, а даже понять, разумно ли встреченное «нечто» или нет. Очень хорошо у него тема раскрыта, да.
eDonkey — крупнейшая в мире сеть по восстановлению файла по его md5-хэшу
UFO landed and left these words here
Сбрутфорсить простите что? строчку произвольной длинны на призвольном массиве, по хешу??? Понимаю что шутка, но все же…
Это похоже на какой-то стих.
Пока дальше этого не продвинулся
Meag pgloezgasel
pag dlreol me leog
gilraglakhag mol keuglzdlimeil
pealk gleg spagikhag,
Epeal pag stslgibishchuldg
pag dlreol euglshcheil,
drum pag shtseleogeuglt
pag dlreol inegil.

Gilrageleo keuglzdlol stikeal
pag dlreol meuglreol
pealk gleg keugll deochedgeg
pealk gleg el keugll deochedgeg
pealk leamkeoleg.

Dol meag pagdlit ug pealkgleg keuglzdleg,
ol ug keuglzdleg pealkgleg blgid retsinog
naenog, epeal eogl stslgoshmag
pag dlreol meuglrel
nmaeugl tokhg
pag dlreol meuglgtag.
В восторге… и не ожидал такого.
Однако, латиницей словянский язык?
Оставили хорошую подсказку в самом тексте. Синтаксис и пунктуация. Судя по всему, фраза изначально на каком-то из латинских или славянских языков. Короче, читается слева направо. Т.к. автор пишет на русском, можно предположить, что исходная фраза на одном из славянских. По частотному анализу символов можно определить примерно глазная буква или согласная. Дальше строить предположения, исходя из слов, которые скорее всего — союзы. Это скорее всего короткие слова после запятых. Союзов не так много и можно кое-какие буквы таки угадать.
Хоть я и полностью дилетант, но… Просто бросилось в глаза. "ლ" скорее всего гласная, т.к. очень часто встречается по много раз в одном слове. В части "დოლ მეაგ პაგდლიტ უგ პეალკგლეგ კეუგლზდლეგ, ოლ უგ კეუგლზდლეგ პეალკგლეგ" после запятой слово "ოლ". Скорее всего союз. Оканчивающийся на гласную. В начале предложения слово "დოლ". Имеем тот самый союз плюс одну букву в начале. Логично предположить "ოლ" читается, как «то». Соответственно "დოლ" — «что». Итого, с большой долей вероятности догадываемся о том, как читаются 3 символа. Ну, и исходим от этого дальше.
Из фрагмента "პაგდლრეოლეუგლშჩეილ, დოლ" видно, что перед "დოლ" стоит запятая — еще одно подтверждение.
Слово "მოლ". Если "ოლ" читается, как «то» — "მ" скорее всего обозначает букву «э». «Это». Или «к» — «кто». Учитывая, что "მ" встречается за весь текст всего в 5 или 6 словах — вряд ли это «к».
Я думал, что в посте достаточно явно проглядывается, что умерший язык из славянской группы и тогда естественно слева направо. Вы этим комментарием намекнули что нет, видимо не совсем, уточню и в посте.
Но он (язык) — умер, т.е. ваш вывод про слово "დოლ" или «что» теоретически может быть в корне не верен. Например, как бы записал слово «Начальник» один извесный персонаж, для которого такая запись была бы совершенно естественна:
Нащальникамана
Язык меняется — частота употребления и сочетания букв остаются. Если остается какой-нибудь потомок этого языка, то он берется за основу при расшифровке. Ищутся общие закономерности и т.д. Если никаких вообще сведений о языке, то расшифровать его вообще нереально, т.к. нет никакой отправной точки — неизвестно даже с чего начать и в каком направлении двигаться.
Насчет моего комментария выше — согласен, что все это только догадки. Я же написал, что полный дилетант в этом деле )
У меня тут такой «древнеславянский» выходит, что сейчас просто не могу уже соображать — просто сижу и тупо смеюсь
над этим
Миэг пжзец гасел па дзрео з мезео
гилра лаха мол кюгз дзимеиз пёлк гзе спагиха,

Епяз па сцзгибиш чуздж па дзрео югзт
шче из друм па щелео югзт па дзрео инегиз.

Гилра гелео кюгзы дзоз стикял па дзрео
мюгз реоз пёлк гзе кюгз деошедге
пялк гзе ез кюгз деошедге пялк лямке олег.

А если серьезно, по-моему структура текста на басню какую-то смахивает.
Почему я вспомнил текст на казахском на балончиках с освежителем воздуха? ))
«пжзец» доставил, спасибо. А если по теме, то как «пжзец» и «гасел» из პგლოეზგასელ получился я представляю очень даже, но почему вы их разорвали? Чем это так, если не секрет.

Что, я зверь какой что-ли — пробелы не трогал! И так задача на грани выходит.

Я бы и кирилицей написал это все, но к сожалению тогда, даже при внимательном прочтении, цитата к сожалению просматривается / угадывается. Ну а уж с анализатором каким-либо… И дальше было бы совсем просто.
А сильнее коверкать «мертвый» язык, рука не поднялась.
Никаких анализаторов я не использовал, просто транслитерировал на латиницу с грузинского алфавита (получилось то, что в моем первом комментарии), а дальше — пытаюсь вручную «играть» с этим текстом, всматриваться в надежде что паззл как-то сам в голове сложится. Короче, подход у меня сугубо антинаучный :)

P.S. Спасибо за ценный комментарий про пробелы! Правда без них некоторые слова совсем длинные. Как в немецком, что ли.
Короче, подход у меня сугубо антинаучный
(Чоэто) очень даже ничего подход — мозг пока ни одним компьютером не заменишь, другой момент, что совсем без «инструментов» тоскливо как-то…
Как решать без калькулятора уравнения с дробями, корнями и т.п. — можно, но тоже тоскливо, а главное как правило дольше выходит. ;)
Тут в личку вопросов накидали, кое-какие ответы интересны будут всем, поэтому обновил пост (апдейтами).
Думаю что это старославянский, а нечитаемые последние «g» из подсказки это ъ (ლ?). Наверно можно поперебирать предлоги: къ, въ, съ, до. И вычислить некоторые гласные.
Ну как бы, есть 2 варианта:
— вы правы и тогда все как вы пишите;
— вы не правы или не совсем правы и тогда это то, что я и имел ввиду под «делать на основании сомнительных исходных выкладок, далекоидущие выводы».

А почему вы из подсказки "только ли" и "всегда ли в конце" пропустили? Намек был вроде довольно очевиден…
Добавил опрос в пост «Что делать дальше?». Опрос заканчивается 01.07.2014 (завтра) в 23:55 по «хабрахабрскому» времени…
К сожалению, время штука очень непостоянная (повис с коллегами в горящем проекте) — но постараюсь все-таки скоро выкатить обещаный пост.
Пока же добавил подсказку седьмым апдейтом, UPD(7) — для тех, кто хотел. Кому все же интересно ковырять самому, просто не открываем спойлер :).
Only those users with full accounts are able to leave comments. Log in, please.