Как стать автором
Обновить

Комментарии 74

То чувство, когда ты сам не знаешь другого значения слова «Pen»… Помню в лохматые 90-е был прекрасный квест, где нужно было найти и использовать «File». Ох тогда мой детский мозг кипел по полной, пока я не узнал, что это еще и «Напильник» =)
По этой причине в плохую погоду играю с детьми в квесты с поиском предметов на английском — им интересно и английскую лексику прокачивают. Старший знает по три-четыре названия таких предметов как лопата, топор, молоток, очки и т.п. Младшие пока тренируют глаз.
То чувство, когда ты перевел точно также как «глупый» гугл-транслейт.
И ладно не знать другие значения слова, лично я например вообще не знаю что такое «детский манеж» даже на русском.
Ага, я тоже сначала не понял, просто не знал другого значения. Попадись мне это на тесте по английском языке — 98% перевел так же как компьютер)) Хотя если бы было время подумать немного — то может сообразил, но без словаря по рукой мои шансы были бы мизерные.
Суть тут не в том, что человек перевёл бы правильно, а в том, что нелогичное значение будет отвергнуто. В данном контексте понятно, что он нашел свою коробку где-то, но точно не в пишущей ручке. Причём, если бы это был отрывок из книги, и манеж более нигде не участвует, то это абсолютно неважно. Ну а если важно, что именно в детском манеже, то позже(или раньше) это слово встретится в таком контексте, что человек поймет, что это такое, даже без словаря. А вот электронный переводчик походу нет, пока по крайней мере.
Кстати, если бы разработчики озаботились, современные нейросети вполне могли бы анализировать ситуацию, вроде сравнить предметы: коробка в(нутри) ручка — коробка больше — не влезет в ручку — другое значение слова… Ну как то так.
Это вы с живыми переводчиками не работали, видимо. Человеки иногда такое лепят, что диву даешься. Сейчас уже конкретные примеры не помню, с переводчиками и переводами работал очень давно, но включение логики при переводе в прошивке у большинства не предусмотрено. И да, помнится с shrink-wrapped ПО мы разбирались долго. Тогда еще и в России термина «коробочного ПО» не было, ну вот не покупали тогда здесь люди ПО в коробках. А в американских статьях этот термин вылезал постоянно… (И да, значение на тему «вскрыл обертку — согласился с эндюзерским соглашением» — тогда еще в этом термине не встречалось).
Пару раз доводилось вычитывать переводы. То, что иногда выдают живые мозги, бывает гораздо хуже машинного перевода. :)
Иногда по запарке до таких «глубин» доходят, что «коробка в ручке» — это фигня. Могут, например, выкопать в словарях, что pen — это маховое гусиное перо. Или что box — это еще и гроб (в переносном смысле). А ежели идущий далее текст не очень понятен, то тема с гробами в перьях имеет все шансы на продолжение и развитие. :)
Да любой фильм возьмите на космическую/морскую тематику, ух там веселье. А какие перлы можно услышать в Eureka/Doctor who/Stargate, уххх. В SG-1 прям помню серию где ухи в трубку сворачиваются.
С фильмами все грустнее. Там текста чистого — на 50-100 долларов переводчику. А мороки — на месяц плотной работы, если нормально копать тонкости смысла и особенности местных идиом. Естественно, те, кто заказывает перевод, смотрят не на качество, а на цену. Остальное — режиссер придумает интонацию и темп, чтобы зритель в большинстве случаев не понял, что ему бред какой-то говорят. В результате, переводчики переводят левой задней ногой, главное — выдать штук 8-10 переводов в месяц, чтобы на жизнь хоть как-то хватало.
А телеканалам на качество контента типо совсем пофигу?
Но даже если и так, если студия переводит 15 сезонов сериала, вникнуть в суть вроде как идея неплохая, не?
Ну и даже если нет, банальные переговоры по рации оканчивающиеся «over» трансформируются во все подряд только не в «прием». Школьники переводят?
15 сезонов сериала — это меньше 300 часов экранного времени. Час экранного времени — это грубо текст на 50 долларов за перевод. И загрузить одного переводчика на год выше крыши. На сколько я понимаю, обычно перевод распараллеливают. Раздают полутора десяткам переводчиков. Каждый получает свою 1000 долларов за месяц работы… Тут не до вникания.
(И да, ситуация сейчас могла измениться, про сколько денег платят за перевод фильмов мне рассказал кто-то из знакомых переводчиков лет десять назад.)
А проблема, собственно, проистекает все из того же, что у нас «знание языка» мертво прибито шурупами к «умению переводить». Когда идет процесс дубляжа фильма — куча денег актерам, звукорежиссерам, аренда студий. А перевести 100 строчек текста? «Да это же на день работы и может сделать каждый выпускник школы с углубленным английским!»
Ну с таким подходом тогда не вижу почему бы телеканалам не загнуться к чертям. Пока понятно почему они держаться. А когда любой телек позволит одной кнопкой юзать какойнить netflix…
А с чего бы им загибаться? То, что перевод отстойный, при просмотре бывает далеко не очевидно. А на языке оригинала будет смотреть очень небольшая часть населения.
Потому что вместо выпуска нормального контента любят поныть
Ну я, слава богу, к выпуску контента относился довольно задолго до интернета, да еще и исключительно в печатных изданиях. А откуда берется отсутствие нормального контента — вроде бы очевидно? Нет? Принцип был сформулирован лет 30 тому назад: «Пипл хавает!» (а по некоторым источникам — так и еще самим Сталиным...)
обычно перевод распараллеливают. Раздают полутора десяткам переводчиков

… и в результате одного и того же персонажа могут обозвать в разных частях перевода по-разному! Как в классическом переводе Heroes III от 1С, где одну и ту же героиню называли то Гем, то Жемчужина.
Боюсь, что в похожих условиях, когда нельзя советоваться и нужно дать перевод человек бы дал схожий неправильный ответ. Вон, Babylon Translation отверг ручку :).
… а ведь еще есть и лягушка в Кузинатре! ;)
Лягушка в Кузинатре — прикольна, но более-менее понятна — Кузинатра в оригинале с большой буквы, имя собственное, кухонные комбайны на тот момент в СССР были диковинкой и редкостью. Я даже вот и не помню, видел ли я хоть раз кухонный комбайн до 90-го года. Их, по-моему, даже из американских фильмов умудрялись вырезать.
Лично меня больше удивляет, что в наиболее часто цитируемом варианте перевода, переводчик выбрал для названия «карты» из термина «козырные карты». Вообще, в интернетах это произведение еще встречается под названием «Козыри судьбы» и «Козыри рока». (Кстати, в том переводе, который когда-то читал я, Кузинатры не было...)

О, фигня-вопрос, достаточно запомнить, что needle file это надфиль, а needle — иголка, и вуаля, мы знаем слово напильник. Вот только что делать тем, кто не знает про надфиль и иголку? Блин, засада...

… а фанату игр про Вторую Мировую придёт на ум словосочетание sub pen — док для подводных лодок.
об это споткнётся не только машинный переводчик.
НЛО прилетело и опубликовало эту надпись здесь
А если играть в что-то на тему фэнтези — slave pens, это то место, где рабов держали)
НЛО прилетело и опубликовало эту надпись здесь
Ну детский манеж в моём представлении не место, а вещь, мебель. Хотя что-то общее с конюшней прослеживается.

Нет, скорее манеж — это изначально про лошадей, а не про

Не про детей.

А манежа в английском значении этого слова нет. Pen — он по определению небольшой, в терминах около-лошадиных, это стойло. А манеж — в английском предполагает не только простор, но и, как правило, зрителей…

Открываем гугл-транслейт:
Манеж — arena, manege, riding hall, stable
Детский манеж — playpen
Стойло — stall, stable, box, bay, crib
Конюшня — stable, barn, stud, stall.

В словарях много интересного можно встретить. Но перечислить все возможные значения для двух- и трех-буквенных английских слов… Там go и do дадут томов шесть-семь…
Но да, pen в отношении лошадей обычно обозначает небольшую выгородку рядом с конюшней… Хотя в значении «стойло» я это слово у американских авторов встречал. Но навскидку не гуглится. (Возможно, просто, американские авторы в вопросе лошадей не очень разбирались… Книги не про лошадей были...)
Есть такое слово — загон. Как раз подходит по смыслу.
Вообще, даже гугл транслэйт предлагает разные варианты перевода, если щелкнуть в переведенную фразу. И альтернативой коробки в ручке предлагается коробка в загоне.
А в переводе на белорусский, вообще основным предлагается «скрынка была ў загоне», и альтернативами загону предлагает муравейник, овчарню и «загарадцы», которые, на сколько я понял, тоже загон. А вариантов про ручку и другие пишущие предметы перевод гуглом на белорусский вообще не предлагает.
На данный момент доступно множество бесплатных онлайн-словарей на разных языках, контекстный поиск примеров употребления — только представьте, как вы делали бы это без компьютера в библиотеке!

То чувство, когда оригинальный авторский текст менее понятен, чем кривой машинный перевод…
Какой еще компьютер в библиотеке? При чем здесь библиотека вообще? Что «это» я должен делать в библиотеке?
Английский язык (словарь) — не закон тяготения и подстроится под запрос интерактива, как многие писатели подстроились под сценарный стандарт книгописания.
Неправильность перевода в данном примере мне кажется притянутой за уши. Вообще говоря, если коробочка достаточно мала, а ручка достаточно велика, коробочка поместится в ручку. А без контекста непонятно, что pen — это именно манеж.
Причём в Википедии, Pen — это загон для скота. Так что, какой-нибудь ковбой мог забыть коробку в загоне для скота.
Если бы в статье не был упомянут манеж, я бы тоже в первую очередь подумал, что этот мальчик живет на ранчо, где есть загон для скота. А что поделать, если контекста кот наплакал…
Вспоминается классика «казните монтажника изображением подноса»
«The naked conductor runs under the tram» же.
UPD Только что проверил, Гугль так и переводит «Голый проводник проходит под трамваем» :))
Между прочим, правильный перевод. Проводник без изоляции? Значит, голый. Проводник эквивалентен в данном случае проводу. А tram может быть и непосредственно трамваем, и каким-нибудь другим вагоном, и вагонной тележкой, так как контекст отсутствует. То, что «runs» переведено не «пробегает», а «проходит», есть большой жирный плюс для Google Translate.
Формально-то верно, но в контексте инструкции к подъёмному крану смешно. Гуртовщиков мыши, кстати, Гугль всё-таки научился распознавать, да и монтажника изображением подноса казнить уже не предлагает, так что в целом-то да, прогресс идёт.
Ну если в остальных местах инструкции tram тоже переведено как трамвай, то смешно, но почти не мешает правильной эксплуатации.
ABBYY Compreno забыли потестировать
ни одна полностью автоматическая система машинного перевода никогда не сможет верно определить значение слова pen (детский манеж) в данном контексте, хотя для человека оно совершенно очевидно.

Перестал чувствовать себя человеком. Через toy, что ли, нужно было ассоциировать pen с манежем? Не сказать, что это совершенно очевидно.
Мне совершенно очевидно, что pen это действительно ручка. Потому что детский манеж это playpen.

Это как сказать человеку «дай мне лобзик», а потом вощмущаться «почему ты не дал мне электролобзик, это же очевидно было!».

Проблема не в переводчиках, а в самом тексте, где зачем-то сократили слово, изменив его смысл.
зачем-то сократили слово, изменив его смысл.
Тогда слово "bus" должно возмущать ещё больше: там от корня вообще ничего нет (и «для всех» тоже недостаточно полно описывает понятие («Automobil Omnibus» было бы лучше) ).
Причем тут этимология? Слово bus имеет определенное значение и этимология этого слова неважна. Слово pen тоже имеет определенное значение, и оно отличается от значения слова playpen.
Боюсь, на анализе контекста естественный интеллект спотыкается тоже только в путь. По личному опыту — пытались давать переводчику на предприятии технические тексты. Нет, переводчик не то чтобы прямо надмозг, ему даже официальную переписку доверяют. Но специальные термины, технический жаргон… «Окно пивоварни» вместо «пластины Брюстера» нас, помню, просто убило, хотя переводчик, надо сказать, и сам в этом месте понял, что он чего-то не понимает :) В общем, посмеялись над результатом и переводим себе статьи сами до сих пор.
10 лет живу в англоязычной стране и тоже перевел неправильно(точнее отметитл что не могу перевести корректно), потому что не знал о таком значении слова pen.
Вообще эксперимент наверно даже не имело смысла проводить, потому что большинство переводчиков переводят строго по предложениям и на соседние не обращают никакого внимания. Чтобы убедиться в этом можно попробовать переводить два предложения при этом меняя что-то только в одном (желательно так чтобы контекст для второго менялся) и увидеть, что перевод предложения которое не меняешь никогда не меняется.

Что касается
Как и раньше, чтобы научиться понимать письменный текст или речь на другом языке, вам придется приложить немало усилий.

то это уже не совсем верно. Я лично прямо сейчас перевожу тексты с японского языка, при том что сам лично знаю на японском дай бог пару десятков слов и только основы грамматики (правда она там довольно простая).
Как я это делаю? Очень просто:
— Текст прогоняется через автоматический парсер, который выдает грамматику предложения.
— Слова переводятся по словарю, естественно с учетом контекста, т.к. перевод выбирается человеком.
— Перевод составляется опять-же человеком по грамматике парсера и подобранным словам, хотя этот пункт уже наверно тоже близок к автоматизации, но очень мало open source тулзов на эту тему пока…
— Поняв смысл предложения чаще всего приходится «переписывать» его на русский, т.к. «прямой» перевод чаще всего на русском будет кривым.

Если хотите могу показать примеры перевода и как это пытался переводить гугл.

ЗЫ: Несмотря на все громкие заявления Гугла о том что они переводят с одного языка на другой напрямую, могу определенно сказать что с японского перевод идет через английский. Чаще всего, иногда почему-то включается прямой перевод, но в основном становится только хуже ;)
интересно, что 0 автоматический парсер используете для грамматики японского?
Не совсем понял вопрос. Если вопрос в том какой парсер использую, то сейчас смотрю на udpipe, из недавней статьи: habr.com/post/420423
До этого использовал старенькие KyTea + EDA, Kuromoji.
Опечатался, да интересовал именно парсер. А ссылочкой вы не ошиблись?
А какое преимущество при переводе дает парсер если вы сами говрили что грамматика простая в японском?
Ошибся :) Вот правильная:
habr.com/company/sberbank/blog/418701
Просто соседняя в трекере была и видимо промахнулся…

Ну во-первых, для японского актуально разбиение на слова.
Во-вторых, для всех языков актуально приведение слова к словарной форме.
Ну и в последних, хоть грамматика и простая, но с ним иногда проще разобраться. А для других языков, и подавно я думаю.

Первые два пункта умеют делать и POS tagger-ы, но udpipe может делать все разу.
Вообще эксперимент наверно даже не имело смысла проводить, потому что большинство переводчиков переводят строго по предложениям и на соседние не обращают никакого внимания.

Так и есть (см. пример ниже).

Оригинал:
Here's a related idea: take a piece of land made of granite. Cut a 1km diameter plug of granite, one km deep. Store power by pumping water under the plug, raising the whole thing half a kilometer in the air. It would store enough energy to power Germany for a day.

Гуглоперевод:
Вот связанная идея: возьмите кусок земли из гранита. Вырежьте винт диаметром 1 км из гранита, глубиной в один километр. Храните энергию, перекачивая воду под штепсельную вилку, поднимая все на полкилометра в воздухе. Он будет хранить достаточное количество энергии для власти в Германии на один день.

Обратите внимание на подчеркнутые слова.

Человеческий перевод
Вот родственная идея: представим себе, у нас есть участок земли, сложенный из гранитных пород. Вырежем в граните цилиндрическую «пробку» диаметром 1 км и толщиной 1 км. Закачаем под нее воду так, чтобы «пробка» поднялась на полкилометра вверх. Накопленной таким образом энергии хватит для электроснабжения всей Германии в течение суток.
Одна из больших проблем в нашей ментальности, что понятие «знание языка» у нас завязано на «умение переводить».
А по факту, умение общаться на языке, умение читать на языке, умение писать на языке и умение переводить на/с — это четыре _разных_ навыка, хоть и немного взаимосвязанных. Но умение читать само по себе не предполагает умения писать и умения говорить. А «знание языка» — это вообще какая-то совершенно отдельная философская концепция. Для кого-то «знание» — это умение заказать кружку пива и спросить, где туалет. Для кого-то — нужно читать, писать, переводить, так еще и говорить без акцента.
и ведь повторится классическая ситуация: если программно нельзя представить технологию — меняется технология. Так что усилия по созданию автоматических переводчиков приведут к революции в языках, это неизбежно, как неизбежно было исчезновение многих диалектов с приходом письменности.
Не думаю что все настолько плохо. На мой взгляд утверждение:
ни одна полностью автоматическая система машинного перевода никогда не сможет верно определить значение слова

слишком сильное. В том смысле, что слово никогда, тут надо заменить на «в ближайшее время».

Чисто теоретически, WSD (Word Sense Disambiguation — выбор смысла слова) вполне рабочая технология, но во-первых достаточно неразвитая, во-вторых она не применяется в нейросетях (насколько я знаю). Точней она у них внутрях сама собой как-то получается, но поскольку сети переводят по предложениям, то связи между предложениями теряются.
Вот пример работы WSD. Каждый может убедиться при желании, что так и работает, никакого мухлежа:
python
>>> import nltk
>>> nltk.wsd.lesk(['John','playing','in','the','pen'],'pen').definition()
u'a portable enclosure in which babies may be left to play'

>>> nltk.wsd.lesk(['I','am','writing','with','pen'],'pen').definition()
u'a writing implement with a point from which ink flows'

>>> nltk.wsd.lesk(['I','pen','that','story'],'pen').definition()
u'produce a literary work'


Таким образом дальнейшее развитие пойдет либо в сторону усовершенствования нейронных сетей, либо в комбинировании алгоритмических методов с нейронными сетями (во что лично я верю больше).
Никто и не говорит, что нужно остановиться и подождать, пока языки не запилятся под текущие возможности железа. Будет идти встречный процесс, но именно встречный. Да уже идёт, со времён изобретения письменности, а потом — СМИ.
А я тоже не знал, что pen — это манеж. И, думаю, еще очень много людей этого не знают. Но, и Гугл, и Яндекс при обратном переводе дают playpen, что, в принципе, недалеко от истины. Если pen заменить на playpen, то перевод будет корректным. Так что, как и с человеком, большую роль в данном случае играет словарный запас. А уж если еще и всякие сленговые слова использовать, то тут и профессиональные переводчики могут сдаться.
Кстати, гугл переводит pen в том числе и как ферма, плантация, загон для скота. Так что опять-таки, недалеко от истины. Видимо решил, что с данным контекстом это не подходит.
Про роль контекста очень хорошо Хэмингуей написал в своем коротком рассказе.
For sale: baby shoes, never worn
Что именно зависит здесь от контекста?
НЛО прилетело и опубликовало эту надпись здесь
Да я все понимаю. Рассказ широко известен, причем авторство Хэмингуэя — городская легенда.
Удивительно видеть этот текст в качестве примера к роли контекста. Видимо, не все понимают, что такое контекст :)
Я тоже воспользуюсь википедией .
В более широком значении контекст — среда, в которой существует объект (например, «в контексте эстетических представлений XIX века творчество Тёрнера было новаторским»).

Я говорю о контексте, как о совокупности социальных и исторических условий, в которые помещен читатель.
Текст рассказа — это простое объявление типа «Продам гараж», но в контексте представлений читателя о высокой детской смертности в прошлом рождается второй смысл, озвученный комментарием выше.
Причем тут второй смысл? Здесь обсуждается то, что слово может имеет разные значения в зависимости от других слов, которые его окружают. Текст «For sale: baby shoes, never worn» переводится одинаково в любом контексте. Какие при этом картины второго-третьего смысла возникают в голове у читателя к делу не относится.
Не говоря уже о том, что вы подменяете один термин другим (который внешне выглядит точно так же) и делаете вид, что речь все еще о том же.

PS. Какой второй смысл рождается у читателя текста «For sale: baby shoes, never worn» в другом контексте?
Странная статья. Ради интереса проверил в Lingvo x3 (десктопный словарь), там есть как переводы с примерами, так и возможность посмотреть мнение самих носителей языка — Collins Cobuild, Oxford Dictionary. Так вот, нет там толкования «манеж».
Фрагмент статьи
I
1.
1) an instrument for writing or drawing with ink, typically consisting of a metal nib or ball, or a nylon tip, fitted into a metal or plastic holder
■ (the pen) the occupation of writing she was forced to support herself by the pen
■ an electronic pen-like device used in conjunction with a writing surface to enter commands or data into a computer
2) the tapering cartilaginous internal shell of a squid
2. (pens, penning, penned) [with obj.] write or compose Olivia penned award-winning poetry
3. — pen and ink — the pen is mightier than the sword — put pen to paper
Origin: Middle English (originally denoting a feather with a sharpened quill): from Old French penne, from Latin penna ‘feather’ (in late Latin ‘pen’)

II
1.
1) a small enclosure in which sheep, pigs, or other farm animals are kept
■ a number of animals in or sufficient to fill a pen: a pen of twenty-five Cheviots
■ any small enclosure in which someone or something can be confined
■ a covered dock for a submarine or other warship
2) (in the West Indies) a farm or plantation 2. (pens, penning, penned) [with obj.] put or keep (an animal) in a pen
■ (pen someone up/in) confine someone in a restricted space they had been penned up day and night in the house
Origin: Old English penn, of unknown origin

III
a female swan
Origin: mid 16th cent.: of unknown origin

IV
short for penitentiary (in sense 1)
Ради интереса проверил в Lingvo x3 (десктопный словарь), там… нет ...

В Lingvo слово «demilance» перевели как «дротик», а «demilancer» соответственно как «дротикометатель».
Хотя, «demilance» — это облегчённая версия рыцарского лэнса, имевшая распространение в XVI веке. А «deminlancer» — это эрзац рыцаря, одетый в кирасирский доспех, и вооружённый дэмилэнсом.
Хм… И чем вам не угодило значение:
■ any small enclosure in which someone or something can be confined
вполне подходящее.

Вообще, как тут уже упоминалось, слово pen в этом значении, это скорее сокращенная версия от playpen, и такое сокращение реально используется.
За пару месяцев с момента поста ничего не поменялось — по-прежнему, у всех «ручки» :)

И ещё, что странно — ни один из переводчиков при генерации русского текста не смог правильно указать род для местоимения it: «Джон искал свою игрушечную коробку. В конце концов он нашел его.» (ну, Гугл отчасти выкрутился, заменив на угловатое «это»).
Впечатление, что уход в нейросетевые модели сломал старые добрые правила восстановления рода в анафорических ссылках.
Зарегистрируйтесь на Хабре , чтобы оставить комментарий