Comments 163
«Шла Маша по шоссе и сосала сушку.»
«Masha was on the highway and sucked drying.»

Still bad, Google…
«Сушка» специфическое слово, гугол просто не понял, что имеется в виду. Забейте в тот же яндекс и значение вам вылезет — качки и сушка белья (etc) и в последнюю очередь «Маленькая тонкая и очень сухая баранка.» даже в толковых словарях далеко не на первом месте. Уберите слово «сушку» и всё будет правильно. И Маша при деле.
Так, хорошо, но куда пропало «шла»? или это тоже специфическое слово?!
Почему гугловский надмозг посчитал факт хотьбы слишком ничтожным чтобы доносить его до англоговорящего читателя?
Просто нейросеть поняла, что на самом деле делает Маша на трассе.
Больше ста комментов уже написали, но никто не дал себе труда проверить, о чём спор :(
В настоящее время GNMT в google translate применяется (да и то, насколько я понял, ограниченно) только для пары английский-китайский. Все остальные пары (уж русский-английский — точно) переводятся старым недобрым статистическим переводчиком.
Как человек, ежедневно пользующийся китайско-английским переводчиком Гугла, подтверждаю: донесение адекватного смысла при переводе с китайского на английский заметно выше, чем при переводе с китайского на русский.

До этой статьи считал, что дело непосредственно в сложности великого и могучего, а теперь склонен полагать, что дело именно в нейросетях.
А китайский на русский (и другие неанглийские языки) напрямую никогда и не переводился, промежуточный всегда английский.
Это проблема универсального языка. Во многих языках идти и быть в прошлом времени имеют одну и ту же форму.
Вполне возможно, что этот смысл и был принят.
«Забейте в тот же яндекс и значение вам вылезет — качки и сушка белья (etc) и в последнюю очередь «Маленькая тонкая и очень сухая баранка.» „
Но ведь они претендуют на гораздо большее, чем словарный перевод с выбором самого частотного значения. Словосочетание “сосать сушку» почти однозначно указывает на то, что сушка — это что-то, что можно положить в рот. Я уж не говорю о том, что это очень известная скороговорка, и после слов «Шла Саша» смысл всех остальных слов устанавливается однозначно.
Медленный каннибализм среди хвойных деревьев. Омофонами в любом языке забавно играться, просто русский язык очень ими богат. Гугол в том числе выдаёт бесчисленные лулзы в переводе, например, с японского.
Ели-ели — Не быстро
Ели — деревья
ели — Поглощали пищу
елей — Смола какого то дерева используется в христианском богослужении для воскуривания…
kamaikin
Позволю уточнить — как написано выше — все же «еле-еле». И тогда никаких елей.
Скорее плохо знаю христианство… Я не православный. и даже не христитианин если что. Потому, масло так масло…
UFO landed and left these words here
Хвойные нетороприво потребляли в пищу масло для церковных церемоний.
Ну вне контекста и человек не решает такие задачки.
точно также он не переводит
«buffalo buffalo buffalo buffalo ...»

Контекстное повествование. С этим и люди плохо справятся при переводе.
Каким должен быть контекст у скороговорки? Сам факт того, что это скороговорка — уже культурологический контекст. Если некоторые люди и с этим плохо справляются, то не надо таким людям заниматься переводом вообще.
Не спорю, я просто говорю, что без ИИ тут не справиться никак.
Может ли это означать, что скороговорки не должны переводиться, а только «транслитерироваться»? По аналогии с именами собственными, например.
По большому счёту, их задача — тренировка произношения, а не донесение конкретного смысла.
Шёл Шива по шоссе, сокрушая сущее,
а навстречу Саша шла, круглое сосущая.

Siva went along the highway, smashing things,
and meet Sasha was circular suction.
Это потому что Google Translate не знает, что бывает еда сушка.
Сушка. Сушка и картошка. Картошки и сушки.
Drying. Drying and potatoes. Potatoes and dried (мало того, что глагол, ещё и в прошедшем).

Пять картошек и сушка. Пять картошек и сушек. Я съел пять сушек.
Five potatoes and drying. Five potatoes and crackers. I ate five dryers («я съел пять сушильных аппаратов»?!).

Хотя в процессе пыток он один раз проговорился (crackers, хотя sushki правильнее судя по Вики). Это либо влияние подсказок пользователей, либо… Google Translate на самом деле знает, что сушки могут быть едой, а разработчики много лет на работе занимаются имитацией бурной деятельности.
Слово suck употребляется так: x1 (thing) sucks x2 (thing). Drying — это не вещь, а процесс (нельзя потрогать), следовательно нужно выбирать cracker (а лучше sushki).

Вот так Google Translate переводит примитивные предложения:
Пряники хочу! Купи пряники, морковь и лук.
Gingerbread want! Buy carrots, carrots and onions.

Птица и собака. Я вижу птицу, собаку. Птица с собакой видят меня.
Bird and dog. I see a bird dog (птичья собака). Bird dog see me.

Лук красивый. Я люблю лук вкусный. Я люблю лук. Я люблю свой лук.
Onions beautiful. I love onion delicious. I love the onion. I love his bow.

Артикли забывает, путает; после существительного пишет прилагательное; предложение не влияет на другие предложения; путает морковку с пряниками (Из-за «кнут и пряник»/«carrot and stick»? Но ведь идиомы употребляются цельными).
Как будто программа, которая преобразует промежуточный язык в разговорный язык, находится в версии 0.0.1.
Вот об этом я как раз ниже и говорил. Это появилось относительно недавно. И ведь здесь перевод правдоподобный. Т.е. если раньше кинул в транслейт — получил кашу — адаптировал. То сейчас получаешь вроде бы красивое стройное предложение, поэтому адаптация вроде как и не нужна. И на выходе жутко искажается смысл.
Ну, в предложении «He loves his bow», «his» вполне себе будет переводиться как «свой»
90% окружающих Вас людей с «родным» русским не поймут и не повторят эту фразу.
Google ещё хорошо выкрутился…
Интересно было-бы проанализировать какие «облака смыслов» отсутствуют/слабо представлены в разных языках.
Подколенная ямка (fossa poplitea, PNA, BNA, JNA) ромбовидное углубление позади коленного сустава, ограниченное сверху и медиально полусухожильной и полуперепончатой мышцами, сверху и латерально — двуглавой мышцей бедра, снизу — двумя головками икроножной мышцы и подошвенной мышцей; заполнена клетчаткой, содержит подколенные артерию и вену, большеберцовый и общий малоберцовый нервы, лимфатические

Большой медицинский словарь. 2000.
Я бы не стал использовать немецкий в качестве примера, где что-то/кто-то называется одним словом. Поинтересуйтесь значением немецких слов Knie и Kehle. Кстати, также встречается Kniegrube. Слово grube, опять же.
В английском два: knee pit. На латыни тоже.
И, да! В русском есть одним словом: подколенок или подколенка.
Какие можно сделать выводы?
Заметил что последнее время гугл-транслейт несет полный бред. Причем на простых оборотах. И достаточно уверенно. Т.е. если раньше выдавал просто набор слов и можно было построить предложение самому, то сейчас он имитирует из себя филолога и выдает что-то неведанное и вариантов перевода/замены подобрать сложней.
Возникло чувство «замусоривания» его словарей.
интересно, а кто-то слово «тернии» в повседневной речи использует (кроме этого выражения)?
Ну естественно кроме как метафору не используют, но не всегда в качетсве аллюзии на Per Aspera Ad Astra.
Я слышал в трех вариантах:

1. основное, из этого выражения — как что-то что надо преодолеть («через тернии к первому дивизиону»)
2. Как символ враждебного отношения общества («можно, конечно, напускать на себя высокомерие и сверхутонченность, но тернии от этого не перестанут впиваться – острые, ядовитые…» — это цитата из Набокова, но я знаю одну мадам, которая частично эту фразу цитировала в речи, так что считается за повседневную речь)
3. Вместо слова «терновник», как синоним слова «сорняк».
У нас в меде это традиционно перед сессией переделывали в per aspera ad anus.
А ещё интересно, почему «aspera» переводится как «тернии». Дословно если я не ошибаюсь, оно переводится как «трудности». Кому-то в голову же пришло перевести именно так. А кому-то ещё поддержать такой перевод.
Кто был тем первым переводчиком?
потому что «тернии» — литературный, несколько высокопарный, вариант «трудностей».

Non est ad astra mollis e terris via («Не прост путь, ведущий от Земли к звёздам», «Тернист путь, ведущий к звёздам»)

https://ru.wikipedia.org/wiki/Per_aspera_ad_astra
То есть в английском нет слова, сходного по смысловому значению с «терниями»? Только «трудности»?
Вспоминая промт, он переводил по «книжному» т.е. первое значение из словаря (основное) а далее побочные. Гугл переводчик идёт по пути наименьшего сопротивления и выдаёт самые популярные варианты (которые выбирают пользователи рядом со словом есть столбик популярности), вариантов перевода накопилось слишком много и зачастую они пересекаются с вообще левыми словами в т.ч. не брезгует жаргонными/разговорными и бывает что путает части речи, нужное значение уже приходится выбирать самому. Но иногда, перевод целых фраз получается очень даже хорошим, что хоть сразу в копипасту.
Тоже заметил, что называется это всё модным словом «нейросеть», а больше похоже на поиск подходящих слов по корню или часто используемых словосочетаний. Сильно теряется смысл при переводе с финского на русский, очевидно, что перевод происходит через англйиский, а говорят, что через никому не понятный внутренний язык нейросети, но тогда смысл не должен был бы теряться.
Через 200 лет универсальный язык «гугол»:
-Говоришь на гугловском? (rus)
-Do you speak google? (eng)
-Go google goo? (google)

А тема хорошая. Возможно, все забудут сарказм «google translate» применявшийся к некоторым плохо переведённым статейкам на хабре ))
Ну «goo» это почти эпическое «ку», так что уже понятно, как будет выглядеть этот самый язык.
Пихают свои нейронные сети куда ни попадя, а потом удивляются, почему это такая чушь на выходе…
Эта технология работает всего лишь с какой-то вероятностью и всегда может и будет допускать ошибки.
Потому что она пытается делать перевод 1-в-1, что НЕВОЗМОЖНО. Многие языки вообще 1-в-1 не переводятся. Duolingo тому пример. Куча ошибок в связи с тем, что разработчики решили «так, а не иначе». Translate же тупо переводит по популярности.

Он не AI, а нейронка, а значит тупо функция конвертации согласно весу слова… 1 шаг от Байзанова фильтра.

Для перевода нужен AI, с пониманием контекста.

Как в примере выше «шла Саша по шоссе и сосала сушку» методом подбора можно перевести, также можно запомнить наизусть, однако чтобы переводить и в дальнейшем предложения верно, нужно понять контекст. «Вася — молодца — улетел на сушке, а я на старой тушке перепердыхал в ближайший аэропорт» уже не реально понять ни тому кто заучил наизусть, ни тому кто будет переводить методом подбора. Уж простите за не классический пример.

Только AI, только хардкор. Только знание окружающей среды и воспитание, а не тупое заучивание.
UFO landed and left these words here
> Контекст.
Неужели его так сложно выделить? Согласен, в одиночном коротком предложении — может быть. Но неужели его так сложно выявить в тексте из нескольких предложений? Найти главные слова, которые есть суть предложений (разобьём на сказуемые, подлежащие и тд), у этих слов уже будет много общего, можно будет их отнести к какой-то определённой области, а остальные слова уже переводить исходя из этой области. Ведь человек тоже не сможет перевести текст, не разбираясь в текущей области. Построение такой системы — это (по моему мнению) в большей степени рутинная работа, нежели придумывание какого-то супер-пупер интеллектуального алгоритма.
Сложно, например представим, что Вы — робот — знаете только одно значение глагола nail — пригвоздить (ну вот не смотрели Вы кино, а учились по старым учебникам грамматики 9го класса). Для робота с текущим алгоритмом перевода контекст I nailed Natalie звучит немного стремно. Робот с текущим доступным нам алгоритмом вызвал бы полицию. AI же, проанализировав уровень доверия и общения с Вами и с Натали и связи между Вами, понял бы, что это контекстуализированный оборот речи. В итоге он бы начал глубинный анализ приложения в частности поднял бы концепт гвоздя, на что похож гвоздь, концепт пригвожжения, как он происходит (в нашем случае это выражение пошло от электромолотков), отбросил бы все не подходящие варианты по доверию и уровню социализации Вашего коллектива и вариант с «вдул» (секс, интим) пришел бы к нему самому.

В любом случае контекст очень важен. Nailed It может значить кучу вещей в одном и том же коллективе, в одном и том же разговоре при одной и той же тематике разговора.
Было бы очень хорошо в будущем если разработчики «прикрутят» языковые правила. Стиль построения предложений и слов. И так для каждого языка. Количество ошибок уменьшится. Плюс алгоритм если не понял что имелось ввиду, мог бы уточнить что это? -Поговорка?! Ок. вариант: Peter Piper picked a peck of pickled peppers. Потому похожие по смыслу скороговорки есть во многих(всех) языках.

Напомнило эпизод из Star Trek: TNG, где была раса, чей язык полностью состоял из метафор и отсылок к истории/мифам/легендам. Универсальный переводчик не мог проанализировать этот язык.


http://memory-alpha.wikia.com/wiki/Tamarian_language

«Вася — молодца — улетел на сушке, а я на старой тушке перепердыхал в ближайший аэропорт»
Вот этот мусор вообще не нужен. Функция языка — кодирование смысла. А здесь налицо сознательное искажение. Одна из ключевых проблем человечества — низкий уровень интеллекта среднего человека, ну а так как язык и сознание тесно связаны, стоит применять почаще простую, структурированную, логично выверенную речь. И популяризировать ее.
P.S. "Тупо" — частенько это соблюдение шаблона, сделанного более грамотными людьми…, от армейского устава до чек-листа в Макдональдсе. Один из способов встроить обезьян, мнящих себя уникальными личностями в эффективную систему.

Функция языка передача информации и всего-то. Он может быть и клокатанием, а уже насколько искажено клокотание неважно, важно что кто-то его понимает и что переводчику его нужно понять. Для научного или публицистического перевода Google Translate уже достаточен для некоторых языков (хотя вот в Венгерском хрена лысого он переводит). А вот в свободном общении и переводе аля babelfish он бесполезен откровенно.

Это при том что я вообще использовал литературно описательный текст с упрощениями и абстракциями, а не свободную речь.

Важно что Вы поняли, а переводчик нашего времени никогда ни при каких обстоятельствах не поймет и не переведет, если только не запомнит всю конкретную фразу и на следующей подобной фразе будет опять асоциальным аутистом.
Аккуратнее, пожалуйста. Функций языка четыре (как минимум; некоторые лингвисты выделяют больше, но с этими согласны более-менее все):
коммуникативная (передача информации),
познавательная (определяет и процесс, и результат познания человеком окружающего мира),
номинативная (дает названия предметам и явлениям окружающего мира),
аккумулятивная (является хранилищем знаний и опыта языкового коллектива)
Немного не то. С технической точки зрения язык — метод передачи информации/ данных.
Любая лингвистическая функция описывается именно как метод передачи информации.

Коммуникативная — передача данных.
Познавательная — опять же передача данных.
Номинативная — куда уже более — передача данных. Сам язык этого не делает — это делает его использующий субъект — передача данных.
Аккумулятивная — encoding? данные в данных? передача данных.

Скажем так я смотрю с транспортного уровня, а не того что там уже на 7 уровне накрутили.
Ох, сколько ж вас таких…
С технической точки зрения это действительно так. Но язык — не техническое явление.
Коммуникативная — передача данных.

Верно в значительной степени
Познавательная — опять же передача данных.

Верно в незначительной степени. Процесс познания не ограничивается, скажем, чтением. Это в первую очередь восприятие внеязыковых образов, которые подсознание впоследствии использует прямо так, без кодирования, а сознание использовать не может, не закодировав в языке (см. ниже). А как происходит это кодирование и чем первичный образ отличается от закодированного и готового к передаче другим людям — этого (пока) никто не знает. А еще первичный образ постоянно меняется (причем иногда рандомно и непредсказуемо), а его закодированная форма (упрощенно будем считать, что это слово) — нет.
Номинативная — куда уже более — передача данных. Сам язык этого не делает — это делает его использующий субъект — передача данных.

В Вашей терминологии это скорее генерирование данных, нежели передача. Представьте, что Вы один на земле, и Вам некому передать данные. Вы все равно станете как-то называть предметы и явления окружающего мира. По каким правилам будут формироваться эти названия? А никто не знает.
Аккумулятивная — encoding? данные в данных? передача данных.

Верно в незначительной степени. Разве интернет существует только для передачи данных? Каждый раз, когда вы формируете сообщение для передачи (исполнения коммуникативной функции языка), немалая его часть передается не в виде данных, а в виде «ссылки на данные,» которые — Вы при кодировании делаете такое допущение, зачастую неправильное — имеют одинаковое значение как для Вас, так и для Вашего собеседника. Функция языка в данном случае — синхронизация результатов номинативной и познавательной функций языка у разных людей (которые зависят в первую очередь не от языкового, а от чувственного опыта, то есть сугубо индивидуальны), чтобы можно было при общении оперировать ссылками. Если тут и есть передача данных, то это сугубо служебный процесс.
В целом да, всяческие I nailed Natalie из коммента выше совершенно излишни.

Правда меня пугает ваше желание встроить всех в «эффективную систему».
Для омонимов можно менять веса в зависимости от стоящих рядом слов.
Ассоциативный массив, где указано что с
сушка = хлебобулочное изделие = чаще применяются слова: грызть, сосать, мука, баранка и т.д.
сушка = процесс сушения = чаще применяются слова: одежды, обуви, мышц и т.д.
сушка = самолёт Су = чаще применяются слова: пилот, МИГ, аэродром и т.д.
Перемножать веса в зависимости от частоты употребления слова в целом, коэффициентов слов, стоящих рядом, их удалённости от искомого слова в предложении.

Но именно нейросеть является лучшим инструментом для создания таких множественных связей в гигантском массиве. Кто занимается анализом данных, поправьте, я не специалист.
Человек тоже понимает смысл с «какой-то вероятностью».
Вот так поставишь человеку задачу, а он всё сделает по-другому. «Ой, а я не так понял!».

«Эти типы стали есть на складе» — вот какой здесь смысл? То-то же!
Я не лингвист, но мне кажется что предложение элементарное, единственное слово которое может смутить это «типы». Но если вы знаете что тип — это неприятный человек, то фразу эту можно перевести как: Эти неприятные люди стали кушать на складе. Фраза не лишена смысла
Это самый известный пример с семантической омонимией.
Здесь два смысла и вопрос в том, какой из них выбрать.
Вообще-то, есть второй смысл — «Эти типы стали (сплава) есть на складе»
Интересно, а ведь эту базу можно исследовать в поисках неких универсальных смыслов, и попробовать на основе этого создать новый конланг.
Интересно, гугл когда-нибудь сделает в переводчик бесплатную распознавалку текста (особенно иероглифов) с картинки с возможностью выделения рамочкой нужных фрагментов и правки?
ну так уже есть в базовом исполнении, а, значит, ничего невероятного.
Ну вот и Гугл до этого добрался. А что про Abbyy слышно? Лет уж 15 как они анонсировали подобное…
Гугл загрузил в нейросеть тексты и построил скрытую модель. Такова суть нейросетей.
Abbyy делает Knowledge Graph, онтологию, что есть противоположность коннекционистской модели. Knowledge Graph это база знаний, т.е. база данных с большим количеством таблиц и отношений.
напомнило мне как, давным-давно, для одного проекта, я прикрутил генерацию синонимов при помощи google translate api — брал короткий «топ» вариантов перевода на английский, а затем топ вариантов перевода обратно от этих вариантов))) такой хак позволил существенно обойти по мощности доступные словари синонимов.) при довольно осмысленных результатах…
"… составила единую базу смыслов человеческих слов". Google не может понять что конкретно записано в базе, но мамой клянется, что там именно смысл именно всех человеческих слов на всех языках. Законченная желтизна заголовка плавно переходит в гугловское вранье и обратно.
А мы то знаем, что внутри сети всего лишь китайская комната.

Но суть от этого не меняется. Всё правильно в гугле думают. В нейросети образовался некий праязык. Да, он без букв, слов и фонем, скорее всего пока неидеален, но это можно исправить, прикрутить идеальное словобразование и звуковую модель. И это поле для прорывов в лингвистике.

Как было выше описано, очень интересно найти белые пятна различных языков, т.е. те концепты, которые на конкретных языках не описываются (или очень плохо описываются).

Ожидаю серию работ по синтезу «Эсперанто-XXI».
Вы фантазируете еще фантазнее, чем гугол. Таких фантазеров ныне много.
Что-то я не понял, как это в 50-процентном русско-белорусском переводе получился чистый украинский? :)

А про машинный перевод — очень хочется посмотреть, как оно будет игру слов переводить…
Что самое интересное, благодаря универсальной базе смыслов всех человеческих слов нейросеть перевода может работать даже для тех языковых пар, на которых её не обучали. Возьмём пример на анимации. Система обучена для языковых пар «японский⇄английский» и «корейский⇄английский». После этого через универсальную составленную базу смыслов нейросеть сможет переводить также языковую пару «японский⇄корейский», хотя она не тренировалась на ней.

Ситуация: нет пары «русский⇄белорусский», но есть пары «русский⇄украинский» и «украинский⇄белорусский». Судя по примеру, украинский используется в качестве связующего звена при переводе, но это немного некорректно.
Более корректно примерно так: пара «русский⇄белорусский» напрямую не обучалась, но пары «русский⇄украинский» и «украинский⇄белорусский» обучались, и есть некий результат в виде «русский⇄универсальный язык⇄украинский», «украинский⇄универсальный язык⇄белорусский». Для получения перевода используется связка «русский⇄универсальный язык⇄белорусский», которую можно получить без обучения конкретной пары языков.
Мне кажется, что с Токи Поной как раз будут проблемы. Там же очень многое зависит от контекста. ona li jo e loje kili. — У него/неё есть яблоко/персик/гранат.
Да, в Токи Поне всё очень контекстуально. Зато какой потрясающе формализуемый синтаксис! Меня, как программиста, он в своё время очень порадовал, но практического применения я не нашел: не превращать же её в ещё один эзотерический язык программирования.
по моему кодирование смыслов не совсем корректно. Кто научится кодировать ассоциации вот ту да.
Давайте рассмотрим слово ПЕЧКА

ПЕЧКА — смысл — обогрев
ПЕЧКА суть — преобразование энергии
ПЕЧКА Ассоциации кирпичная печка (печка в машине)

и так далее про ПЕЧКУ как способ выпекания
и т.д. можно фантазировать

урааа теперь гугл будет думать за нас.
так долго ждали этого, ага ждали
следующий этап деградации, наступил
Одними из наиболее ярких предыдущих этапов деградации были приручение лошади, изобретение водопровода и механического вычислителя.
Интересно, а как смысловые оттенки стран перетекают из одного языка в другой?

грубо говоря возможно ли что в одном языке будет упоминаться одна страна, а в переводе другая?
В реальности это встречается: take French leave = уйти по-английски, например.
Еще интересней, можно ли сделать на таком же принципе трансляцию из одного языка программирования в другой или например в машинные коды? так как тут есть возможность проверять правильность результата и проверять оптимальность(время выполнения)

медленно, но возможно ключевые участки будет иметь определенный смысл.

гугл легко переводит текст с картинок, попробуйте переводчик на смартфоне или планшете, заодно можно увидеть пульсацию нейросети, когда слово меняется.

старое. детское. интересное

Ах, у ели, ах, у ёлки, ах, у ели злые волки

_____
Ah, fir, ah, at the trees, ah, evil wolves have eaten
Туда же — а вы уху ели? Когда гугл научится такое переводить без потерь, тогда живым переводчикам можно начинать беспокоиться :)
Никакой гугл не переведет:

Часово — жиркие товы.
И джикали, и джакали в исходе.
Все тенали бороговы.
И гуко свитали оводи.
или
Варкалось. Хливкие шорьки
Пырялись по наве,
И хрюкотали зелюки,
Как мюмзики в мове.


а человек?
https://s-media-cache-ak0.pinimg.com/originals/1a/60/e3/1a60e356d1afd88ec0f3e5f9bc2e2d01.jpg
Тут попробовали. Фразы «Бога люблю» и «Божья любовь» он переводит одинаково на английский
А еще интереснее про капитана Деревянко…
А если на самом деле — то вот что непонятно. В распоряжении гугла же куча корректно сделанных переводов кучи классических текстов мировой литературы. Распарсить, поставить в соответствие — и уже с этим вполне можно делать неплохие переводы, кмк… Понятно, что не так просто — но должно работать…
Русско-беларусский перевод сделан через промежуточный украинский? Цікава! :)
Ну, с английского на беларусский он уже давно через русский переводит.
В том и дело. Я думал у них там русский — это как хаб для восточно-славянских языков, имеющий прямые переводы в другие восточно-славянские языки.
Русский, по-моему, плохо подходит для этой цели, он очень выбивается из остальных славянских языков. Посмотрите, например, слово «утро» на украинском, белорусском, чешском и других языках.
Русский-польский переводит плохо в обоих направлениях, падежи почти не понимает.
Читайте мой комментарий ниже
Программа не может оперировать смыслами на основе одного лишь текста без выявления тональности это текста. Алгоритм должен понимать, что хорошо/плохо для читающего/рассказывающего/стороннего. Без этого ни о каком смысле речи быть не может. Это просто продвинутый, но тот же статистический метод.
А ведь можно было просто поставить серединкой эсперанто и он бы немного более дословно, чем надо переводил бы. Зато точно)
С чего бы это? Эсперанто в этом отношении ничем таким от натлангов не отличается, те же проблемы с переводом, неоднозначностью смыслов и прочим. Его единственное достоинство — регулярная грамматика — при текущем уровне NLP, не играет большой роли.
Всем выше: насколько я понимаю, сейчас нейросеть для перевода еще не используется.
https://translate.google.com/#ru/hr/петух
Давно-о уже.
Вот что значит использовать в качестве промежуточного языка самый для этого неприспособленный.
«Печка пряников.» переводит как «Oven cakes.»
Но, если добавить слово «выпечка», вот так «Печка пряников. Выпечка.», то перевод стразу же исправляется «Baking gingerbread. Bakery products.»
https://translate.google.com/#ru/hr/петух
Давно-о уже.
Вот что значит использовать в качестве промежуточного языка самый для этого неприспособленный.

Добавь контекст «петух летит» и получишь более корректный перевод.
Ну-ну.
«У него живет большой петух, петух летит, петух летает, петух поёт.» →
«On živi veliki penis, penis leti, leti kurac, penis pjeva.»
1 kurac из 4-х возможных. Запятые не зря, слова с заглавной буквы Гугл не понимает:
«У него живет большой петух. Петух летит. Петух летает. Петух поёт.» →
«On živi veliki penis. Cock muhe. Cock muhe. Rooster pjeva.»
Английские слова знает, а как написать их с большой буквы в другом языке: увы! В просмотренных текстах как-то не оказалось…
вчера, после прочтения статьи, по дороге домой, посетила такая мысль
а можно ли эту систему использовать для перефразирования готового текста:
1. допустим я читают научную статью и не обладаю всеми знаниями, нажимаю волшебную кнопку и все непонятные слова, словосочетания, выражения переводятся в «нормальный» язык.
2. или такое, скачал студент реферат из интернета, нажимает волшебную кнопку и весь реферат был перефразирован так что смысл остался тем же, а слова другие.
3. толстая книга, на 900 страниц. читать нет ни времени ни желания. нажал волшебную кнопку и тут на 50 страницах, вкратце весь смысл. или наоборот. написал короткую заметку а нужна целая статья.
Эту систему нет, на данный момент она не работает со смыслом, а только с переводом отдельных слов, словосочетаний или фраз. В лучшем случае удастся решить первую задачу, но только при долгом обучении и переводить он будет все-равно весьма приблизительно.

Вообще задача аннотирования или реферирования в машинном обучении существует уже лет 50, но считается что она требует сильного ИИI. Без способности работать со смыслом такие системы будут всегда переводить довольно грубо.
очень жаль.
вот еще идеи на эту тему. к примеру переписать заданный текст словами Л.Толстого или Трахтенберга.
ограничить словарный запас теми понятиями что были в восьмидесятых.
текст для детей до 7 лет. или для гопников из Бутова.
Уточнение для всех спорщиков (и себя, отредактировать свой предыдущий камент я, увы, не могу):
согласно https://blog.google/products/translate/found-translation-more-accurate-fluent-sentences-google-translate/ с 15 ноября эта технология используется в Google Translate для восьми языковых пар: между английским и «French, German, Spanish, Portuguese, Chinese, Japanese, Korean and Turkish».
UFO landed and left these words here
Какая там нейронная сеть, он 2 слова связать правильно не может)
К примеру как он переводит простые предложения:
Он закроет окно. Он закроет окно?
He closes the window. He will close the window?

Переводчик) Та и для остальных пар языков видимо тоже не работают нейронные сети, я пробовал набрать текст, который указанный как пример в одной статье и результат остался таким как и был раньше.
К примеру текст на испанском
Uno no es lo que es por lo que escribe, sine por lo que ha leido.
он переводит на английский так
One is not what he is for what he writes, sine for what he has read.
Кстати майкрософт уже подключила к нейросети русский язык и перевод там действительно лучше, вот как переводит их переводчик:

Он закроет окно. Он закроет окно?
He'll close the window. Will he close the window?
Зря поднятый шум, как мне кажется.
1. Сами авторы в работе ничего про универсальный язык не утверждают. Пишут, что есть hints, early evidence и прочее. Если вчитаться в работу, они сами пока не очень поняли, с чем столкнулись, и пишут самое, на их взгляд, очевидное.
2. Качество перевода они оценивают по шкале BLEU, которая а) плохо работает на маленьких выборках, б) относительна сама по себе («how's your wife?» — «compared to what?»). И все приросты, указанные в таблицах — в пределах погрешности. То есть суждение авторов о качестве выполненных переводов как минимум неоднозначное.
К авторам претензий никаких: они, видимо, решают задачу дать хоть какое-то качество переводам на редкие языки, для которых все пары с общераспространенными языками, хоть тресни, не наработаешь. К чему тут разговоры о языке человечества, ума не приложу. О доме надо думать ).
Вот русский исходный текст:

«Не заметив, что на мосту, где было совершенно темно, шоссе, давно требующее починки, о которой некому было позаботиться, размыто дождями, в этих местах почти не прекращающимися, покрыто выбоинами, заполненными, о чем было нетрудно догадаться, густой грязью, завалено мусором, велосипедист, как мешок с картошкой, со всего маху свалился в яму.»

Вот его Гуглтранслейт:

Not noticing that on the bridge, where it was completely dark, highway, long time requiring repair, about which there was no one to take care, blurry rain in these areas almost does not stop, covered with potholes, filled, as it was easy to guess the thick mud, littered with garbage cyclist like a sack of potatoes, with all the fluff fell into the pit.

Замечаем, что переводит последовательно, не понимая смысла и не извлекая главную смысловую группу.

А вот, перевод на техническом сайте IKnowww.ru http://mentalogy-ru.1gb.ru/trans:

Cyclist, like bag with potatoes, with full fluff has fallen down into pit, not noticing, that on bridge, where it was completely dark, highway, for long time requiring repaire, for which was no one to take care off, blurred by rains, in these places almost not ending, covered with potholes, filled, about what was not difficult to guess, by thick dirt, littered with garbage.

Вполне сносный перевод, да и смысловую группу ставит во главу угла.

Может, Гуглу стоит объединиться с Айноу?
«Шла Саша по шоссе и сосала сушку.» → «Was Sasha on the highway, I sucked drying.»
А может, не стоит?
Да, нет! Это Вы привели перевод Гугла.
А Айноу переводит так:
Sasha went on highway, and sucked bagel.
Вот как переводит ваш переводчик хваленый
Он закроет окно. Он закроет окно?
He close window. He close window?

А вот как переводит переводчик translator.microsoft.com/neural
Шла Саша по шоссе и сосала сушку.
Sasha was walking on the highway and sucked drying
Ну так переводчик Айноу быстро обучается.
Вот Вам и продвинутый перевод:
Sasha was walking on highway, and sucked bagel.
UFO landed and left these words here
Это потому что не надо байкам от гугла верить. Гугл переводит с любого языка на английский, а потом с английского на целевой. Поэтому если хочешь понять китайский — переводи на английский, так ещё что-то можно понять. Если запустить вторую фазу, то получается полнейший шлак.

Аналогично, чтобы получить какие-нибудь значащие иероглифы, переводите с английского на китайский. Таким образом я ищу на тао. Если переводить с русского на китайский — получите полный шлак, только Вы об этом даже не узнаете :)

Означает ли это, что «универсальный язык» на котором «думает всё человечество» — английский?
«Йя так не думайу» (L).
UFO landed and left these words here
Падежи — это слабое место Google Translate. Гугл плохо понимает как может отношение между словами строиться на основе окончаний слов, а не за счет их положения и предлогов.
Такое ощущение что гугл просто обрезает слово до корня и теряет драгоценную информацию.

Вот пример, где гугл не понимает родительный падеж (а это самый распространенный после именительного)
хотя с английского переводит хорошо
https://translate.google.com/?hl=ru#pl/ru/Man's%20hat

а обратно уже нет
https://translate.google.com/?hl=ru#ru/pl/%D1%88%D0%BB%D1%8F%D0%BF%D0%B0%20%D1%87%D0%B5%D0%BB%D0%BE%D0%B2%D0%B5%D0%BA%D0%B0

перевод польский-русский и обратно вообще не понимает
https://translate.google.com/?hl=ru#ru/pl/%D0%A8%D0%B0%D0%BF%D0%BA%D0%B0%20%D1%87%D0%B5%D0%BB%D0%BE%D0%B2%D0%B5%D0%BA%D0%B0

https://translate.google.com/?hl=ru#pl/ru/czapka%20cz%C5%82owieka

Румынский правильно переводит используя родительный (у них это дательный падеж)
https://translate.google.com/?hl=ru#auto/ro/man's%20hat

Обратно уже нет
https://translate.google.com/?hl=ru#auto/en/p%C4%83l%C4%83ria%20omului

Т.е. гугл типичный словарь только для перевода с английского, т.е. моно-движек, и например синтетические языки переводит хуже чем Яндекс Транслейта.

Это легко объяснить, т.к. гугл транслейт видимо был создан англоязычными людьми, для которых английский был родным и единственным, а как мы знаем, английский язык аналитический, то русский синтетический. Т.е. в первом варианте смысл передается положением слов или предлогов, а во втором окончаниями.
Но ведь язки не ограничиваются синтетическими и аналитическими, есть еще много видов грамматик, они еще дальше от английского, что с ними твориться? Наверно еще хуже. На самом деле синтетическая грамматика наиболее близка по корням к аналитической. Т.к. раньше все индоевропейские языки были синтетическими. И английский не является в полной мере аналитическим, в нем остались синтетические элементы.

Т.е. если верить автору этой статьи, тогда и я верю, что некоего промежуточного языка вполне хватает для описания и русского и английского языка, но гугл зачем тогда гугл так легко отбрасывает нужную информацию? шляпа (им. падеж) человека (род. падеж)

Т.е. где-то просто рокет-саенс, а где-то каменный век. Тогда, если честно, слабо верится в статью, что гугл сделал какой-то прорыв. Думаю лучше всего спросить программистов Яндекс Транслейта, у них перевод синтетических языков явно лучше.
Google Translate — далеко не первая компания, которая сделала машинный перевод на основе нейросетей. Раньше Гугла запустились Microsoft и Systran, причем Systran сделали это в большем количестве языковых пар.

http://www.commonsenseadvisory.com/default.aspx?Contenttype=ArticleDetAD&tabID=63&Aid=37210&moduleId=390

Google просто пропиарились удачнее.

Тем временем, тесты показывают, что на текущем уровне машинный перевод на основе нейросетей лишь немногим лучше хороших движков на основе технологии предыдущего поколения, Statistical Machine Translation.
https://slator.com/academia/4000-lines-code-harvard-hopes-will-change-translation/

Особенно движка статистического машинного перевода с хорошей «заточкой», специализацией. Преимущество NMT в том, что он быстрее и на меньшем объеме входных данных создает достаточно качественный продукт. Это очень важно для редких языков и узкой специализации.
Отличная статья — спасибо! :)

По какой-то причине знание посторонних языков помогает нейросети более качественно переводить с данного конкретного языка.

Может быть это потому, что язык нам нужен, чтобы описывать окружающую нас реальность?? :)
А она у нас одна, вне зависимости от языка…
Only those users with full accounts are able to leave comments. Log in, please.