Комментарии 55
«если дополнить сугубо лексическую модель еще и моделями морфологии (словоизменение и словообразование) и синтаксиса (построение предложений)» в гугловском переводчике не используется. он примитивнее, Скорее всего ему требуется существенно больше данных, чем подходу гугла…
Не пытались использовать SyntaxNet?
Прогоняете SyntaxNet, получаете дополнительную информацию о предложении и обучаете с доп информацией?
кроме единичного вектора слова, еще тип речи, взоимосвязанность и т д
кроме того для языков с падежами можно существенно сократить количество слов за счет передачи именительного падежа и принадлежности слова (кто ему подчинен, кому он подчинен), в принципе можно перестраивать предложение в языково независимую структуру. что должно упростить обучение разных языков.
- можно попробовать упростить.
есть начальный корпус и множество других предложений.
делаем допустим 5 сетей с разной инициализацией. и обучаем на размеченном корпусе.
далее прогоняем по оставшимся предложениям и там где все 5 сетей разбирают предложение одинаково включаем в обучающую выборку с коэффициентом 0,8 (если например коэффициент обучения 0,0001 то для этих данных будет 0,0001*0,8)
далее повторяем для оставшихся с последовательно убывающими коэффициентами обучения.
или можно сжимать информацию ставя на вход image
Подход когда промежуточные результаты, где варианты сетей не сошлись в ответе показывать человеку и использовать проверенные деревья для увеличения примеров будет лучше на мой взгляд.
Государственные документы, например.
Эпосы.
В любом случае, текущая версия не финальная, и мы работаем над её улучшением.
Only it seems to me, this approach loses Googley?
(первый — яндекс, второй гугль. ;)
А как вы измеряете качество перевода?
на хинди было бы आपका नीला पैर — ваша синяя нога
а правильнее
आपका पैर नीला है
В таких случаях мы пытаемся заимствовать слова из кельтских языков — шотландского, ирландского, валлийского. При этом соблюдаем все правила орфографии письменности Тенгвар :)
Позвольте сказать вам, как автор синдарино-русского словаря(первого достаточно полного, законченного в 2001 году, но так и не изданного), что вы глубоко неправы. Вы сами додумали за автора языка про заимствования и сами пытаетесь их делать. Не надо так. Прежде всего для неосиндарина нужно использовать имеющиеся корни, пример: вам кажется, что в синдарине нет слова «телевизор», но это же не так, ибо «теле» = палан, а «видеть» — тир, таким образом в языке уже есть слово «палантир»(множественное число «палантири») для телевизора, аналогично будет с телефоном, который у нас будет что-нибудь типа palanrhoss(сейчас не уверен, сходу вспомнил rhoss для звука, но может что-то иное, надо заглянуть в словарь, а его вот прямо сейчас под рукой нет, я не за своим компом). Не нужно тащить в язык чужие корни, нужно образовывать из его корней, если нет корней в синдарине смотреть в квэнья, смотреть как слово должно было изменяться при переходе в синдарин и делать из него.
Вы пытаетесь привязать синдарин к земным языкам, потому что вам так удобно, а у Толкина слова в синдарине происходили из квэнья.
Знаете классическую ошибку тех, кто прочитал пару статей и думает, что он разбирается в синдарине? Эта ошибка называется «Ошибка Гэндальфа» и она нам видна в «Lord of the Rings». Когда Митрандир смотрит на ворота Мории он там видит надпись «Pedo mellon a mino», но он не помнит(или не знает, ибо не жил в Смертных Землях), что у синдарина были диалекты. Он рассуждает, что эта надпись значит что если ты друг, то знаешь пароль по той простой причине, что надпись требующая сказать слово друг писалась бы через vellon, а не mellon, он не понимает, что в эрэгионском диалекте правильно так, как написано.
Вот и вы рассуждаете о синдарине не вдаваясь во внутреннюю историю в пределах мира описанного(выдуманного) JRRT. На синдарин внутри мира не могут влиять шотландские, ирландские и прочие японские языки, на синдарин влияют кхуздул и вестрон, синдарин не вышел из шотландского или ирландского, синдарин вышел из квэнья.
А по теме статьи: почему выбрали именно синдарин? У quenya словарный корпус больше и морфология прописана во многом тщательнее :). Кстати (сам убедиться не могу из-за отсутствия зрения), в сообществе Languages of Middle-Earth говорили, что у вас много где не перевод, а транслитерация английских слов на tengwar. Это правда?)
А про транслитерацию у Яндекса это чистая правда. Проверьте сами, тенгвар достаточно прост.
вам кажется, что в синдарине нет слова «телевизор», но это же не так, ибо «теле» = палан, а «видеть» — тир, таким образом в языке уже есть слово «палантир»(множественное число «палантири») для телевизора
Дык Вы, по сути, предлагаете тянуть русский язык в эльфийский.
Пусть даже и разбитый по корням.
А почему тогда, все же, не более близкий к нему валийский?
Далековизор буквально переводится на синдарин. Никакого русского. Прямой перевод.
;)
Исходное слово нужно откуда-то взять и разбить на корни.
Вы взяли русское. В случае телевизора проблема не видна явно, так как аналогичное есть и английское и немецкое и еще в куче языков. Тут совпало.
Но есть слова, которые серьезно различаются в разных языках.
По вашей же системе получится, что русско-эльфийский перевод и, скажем китайско-эльфийский для одного и того же понятия будут давать разные эльфийские варианты.
Эльфийский есть, чувашского нет :(.
https://translate.yandex.ru/?text=humongous&lang=en-ru
Не хватает переводчика с одного языка программирования на другой в любых комбинациях.
Неоднократно уже на разных ресурсах в качестве аргумента «как правильно» видим не отсылки к словарям и/или книгам, а к гугл-транслейту, что характерно, к гугл-транслейту с неправильным и/или неточным переводом.
Чем более мощные будут автопереводчики, тем точнее они будут в целом (но ошибки все же будут), и в то же время детализацию (нюансы) они будут проглатывать всегда.
Люди все больше ориентируясь на автопереводы начнут совершать ошибки и упускать нюансы, но поскольку благодаря автопереводам будут понимаемы — эти ошибки (источник которых в автопереводчике) и отсутствие нюансов (источник которых в автопереводчике) постепенно изменят язык и станут правилом.
Например. Пока, пока яндекс считает кофе мужским родом. Но надолго ли? В разговорной речи он уже официально записан средним родом. В интернете употребление в среднем роде весьма распространено. А ведь яндекс на этом учится. Не получится ли завтра так, что переведет что-нибудь типа «в будующем оплатите за проезд, вообщем извени, надо ложить экспрессо или какое кофе будите, да и надо иметь ввиду выйгрышь»?
Опять же, если встанет выбор между детализацией и свободном общении всего человечества, я всеми руками за последнее. В моем представлении это куда большая ценность, чем лингвистическое различение 40 видов снега, по преданию доступного экскимосам. Впрочем, крайне маловероятен жесткий выбор подобного рода — обычно находятся энтузиасты, исследующие и поддерживающие этнические особенности из разных побуждений
Кофе уже давным давно допустимо в среднем роде. В том числе «официально» с 2009 годаРазумеется, поэтому мы и привели это в пример.
Да и в целом — язык развивается, появляются новые слова, новые формы, возможно когда-нибудь, ваша фраза в кавычках станет допустимой нормой, как бы дико это сейчас ни звучалоМожет и станет допустимой нормой, но суть в том — почему это произойдет.
Если это произойдет в ходе естественного общения (образованных) людей — ок, если же это произойдет в ходе ориентации безграмотных людей на автопереводчик который ориентируется на безграмотных людей (а не правила языка) — это не ок.
Идиократию смотрели? Как Вам будущее?
Опять же, если встанет выбор между детализацией и свободном общении всего человечества, я всеми руками за последнее.А мы все же предпочтем жить в разнообразном мире, там где есть пальмы и клёны, а не только упрощенные деревья без детализации.
Где люди общаются с хорошим словарным запасом выражая нюансы, а не на уровне эллочки людоедки, пусть даже все эллочки могут свободно общаться друг с другом и их это не напрягает.
Интернет и так уже отнял у человечества возможность выражать эмоции, заменив их упрощенным суррогатом ¯\_(ツ)_/¯. Теперь автопереводчики лишат нас словарного запаса, корректности языка и его разнообразия?
Реально хотите жить в мире «идиократии»?
Но я не очень понял вашу мысль.
Каким образом интернет отнял у человечества возможность выражать эмоции? К вам лично пришел интернет и отнял эту возможность? Кто вам мешает их выражать доступным для вас образом? Умеете восхитительно обращаться со словами — используйте навык. Не дано, нет времени, нет желания или неуместно — поставьте смайл. Каким образом, развивающиеся уже не первое десятилетие смайлы (что вы очень элегантно показали смайлом из условно «третьего поколения») могут запретить вам что-то делать? Лично я их рассматривал бы как расширение доступного инструментария общения, а не как какой-то запрет или деградацию. И кстати, оцените нюанс, смайлы «из коробки» доступны и относительно идентичны на всех языках.
Английский язык де-факто является общим языком мира и почему-то развивается год от года, а не вырождается в basic english.
Русский язык за время жизни интернета пополнился падонкафским языком, йожиным диалектом и многими другими, прошедшими мимо меня.
И я не могу понять, как вы приходите к мысли, что объединиться могут лишь эллочки-людоедки. Если у умных людей появиться потребность в детализации и нюансах — они найдут способ их выразить. Смайлами, мимикой, жестами, словообразованием, или любым другим доступным способом. Но я уже обозначил свою позицию — лучше пусть десять человек будут свободно общаться на языке, сколь угодно далеком от «корректного», чем это будут пять пар, где каждому человеку будет доступен лишь один собеседник. Это полезнее в любом плане — хоть в бытовом, хоть в общецивилизационном.
Но ведь для языков верны и обратные процессы, то бишь усложнение. Да и сомневаюсь что языковая ассимиляция позволит это сделать — слишком легко появляются новые диалекты — опять же усложнение. Поэтому думаю на ваш век сложности хватит.
Задачка, которая у меня крутится в голове и к которой я пока не знаю, с какого конца подступиться, примерно такова:
Дано:
- Библия и большой слабо размеченный корпус богослужебных текстов на греческом языке.
- Библия и большой слабо размеченный корпус богослужебных текстов на церковнославянском языке.
- Известно, что зачастую перевод — это калька (тот же порядок слов и даже грамматические признаки)
Найти:
- церковнославянско-греческий словарь
- греческо-церковнославянский словарь
- различия между корпусами
Похоже, у яндекс переводчика будут проблемы при переводе мемов с Боромиром.
Интересные концепции автоматизации перевода, я о таких не слышал, спасибо за информацию к размышлению. Однако вот ведь в чём проблема: иногда в тексте важна сама формулировка мысли, отточенная автором и "выраженная идеально" на его языке (чтобы перевести эту мысль, необходимо понять, что же хотел сказать автор этими словами)… а иногда важна не конкретика, а общее направление, нужно понять, «куда клонит автор»… Мне кажется, в первом случае только человек, находящийся «в теме», сможет перевести не просто грамотно, но и в максимальном соответствии мысли, заложенной в текст автором. А во втором случае — общий смысл сможет передать и компьютер, не имеющий «за плечами» человеческого опыта и интуиции…
По поводу книг и прочих документов, имеющихся в оригинале и в переводе, могу сказать по своему опыту, что они могут очень сильно не соответствовать друг другу. В лучшем случае — будет, как говорил Фазиль Искандер — из лошади сделают осла, а затем и осла превратят в крысу. В худшем случае… Когда-то, давным-давно, пришлось мне «сдавать тысячи» (кто учился в аспирантуре, поймёт — нужно было сделать перевод текстов общим объёмом примерно на 500-600 тысяч печатных знаков, это довольно-таки много, особенно если переводить качественно), и нашёл я в библиотеке книгу, изданную на немецком и на русском (один экземпляр на немецком, другой — на русском). В общем, схалявил… ну, то, что перевод был очень «вольным» и «примерно по тексту», стало понятно на первом же занятии… а где-то к третьему оказалось, что в русском «переводе» отсутствовали целые фрагменты текста оригинала и были весьма заметные куски «отсебятины»… так что всё равно пришлось садиться за перевод самому и многое переделывать… Ещё было у нас на одном занятии интересное обсуждение того, что не всё можно перевести с одного языка на другой дословно… например, в фразе «и вот на этом пятачке они встретились» слово «пятачок» не может быть переведено на немецкий иначе как «очень ограниченное пространство», что, согласитесь, уже не так элегантно, как в оригинале… В общем, если нужно перевести с одного языка на другой нечто образное, то компьютер с этим скорее всего не справится… нужен «толмач», который воспримет текст, выстроит в своём воображении корректный образ — и передаст его на другом языке…
Ещё в переводах есть одна проблема, на мой взгляд — технически достаточно сложно решаемая… Это проблема знания предметной области, к которой относится текст (сразу же вспоминается старый добрый «двойной удар по левой почке мыши...» из конца 90-х). Проще показать эту проблему на примере… Недавно я начал осваивать Kdenlive (неплохой такой видеоредактор под linux с весьма крутыми возможностями, но не об этом сейчас речь), и решил, что прежде чем заниматься практикой монтажа фильма, неплохо было бы разобраться с теорией режиссуры и операторского искусства. Нашел одну интересную книгу, первую часть которой (про конкретную программу) писал технарь (он использовал «компьютерные» термины — кальки с английского), а вторую часть — человек, работающий в киноиндустрии (опиравшийся на богатую кинематографическую традицию и терминологию). Оказалось, что для того, чтобы объединить теорию и практику, я должен сделать перевод с русского на русский! А всё потому, что многие переводы с английского (языка подавляющего большинства компьютерных программ) на русский делались второпях, «энтузиастами» и компьютерными технарями (ну ведь про компьютерную программу же, книга-то!), которые ничего не знали про терминологию съёмочного процесса и дальнейшей обработки материала… Поэтому мы видим в русскоязычных книгах «футажи», «клипы», «таймлайны» и прочее, прочее… В общем-то, программисты ведь тоже очень не любят, когда переводчик «не в теме» и предлагает своё «понимание» какой-то базовой технологии…
Так что без человеческого (жизненного, профессионального) опыта никак не обойтись в переводах с/на какой-то (человеческий) язык… Да, компьютерные технологии анализа текста и перевода становятся всё совершеннее, и могут всё больше помочь человеку, но всё равно сохранятся области, где программа останется
P.S. Моя мама по работе вынуждена периодически вести переписку с иностранными компаниями… не зная английского, она поступает очень просто: пишет письмо на русском языке, вставляет его в окошко переводчика, кликает «перевести на английский»… Но ведь она не знает, хорошо ли перевёлся текст, верно? Этот перевод она снова вставляет в окошко переводчика и кликает «перевести на русский»… то, что по-русски звучит плохо, она переписывает — и опять переводит на английский и обратно… обычно за 2-3 итерации ей удаётся получить более-менее понятное и корректное письмо… Переводчика уволили, приглашают два-три раза в год, на переговоры…
Как Яндекс научил машину самостоятельно создавать переводы для редких языков