Как стать автором
Обновить

Комментарии 56

История с «машинным переводом» очень напоминает историю с управляемыми термоядерным синтезом, и там и там вначале казалось, что решение вот оно, рядом, если не к концу квартала, то уж к концу года все будет сделано. Быстро были найдены методы, казавшиеся идеальными для быстрого решения (в термояде это запирание плазмы в магнитном поле и схема ТОКАМАКа), да и параллельные процессы, например атомная бомба, термоядерная «водородная» бомба и атомный реактор, были сделаны сравнительно легко и быстро, казалось, что четвертый вариант, термоядерный реактор — вот он, на подходе. Ан — нет.
Что-то подобное произошло с переводом и «искусственным интеллектом» (долго казалось, что это две связанные темы), сперва казалось, что решение вопроса — предмет работы в течение нескольких лет. Тем не менее, прошло 60 лет, а цель все так же не близка. Или, вернее, не ближе, чем управляемый термояд.
На самом деле ситуация с термоядом в каком-то смысле противоположна ситуации с переводчиком.

В случая с термоядом более-менее понятны критерии, когда он может считаться «введённым в строй» (когда энергия от ТЯЭС начнёт поступать потребителям; всё остальное — промежуточные этапы), но оказалось что добиться этого ой как непросто.

А вот с ИИ вообще и с переводом в частности не очень ясны именно критерии, по которым задача считается решённой или нерешённой. Грубо говоря любая задача, традиционно относящаяся к ИИ после её решения объявляется «ненастоящим ИИ» и с переводом — та же история. И то, что переводчики давно и успешно реально используются реальными людьми для решения реальных проблем — ни разу не показатель. Это, типа, «ненастоящий» перевод, «суррогат», «подделка». При этом что такое «настоящий» — никто толком объяснить не может. Разве что определить его как «перевод настолько похожий на то, что может сделать человек, что нельзя сказать — сделал его человек или машина», но тогда этот тест станет просто очередной версией Теста Тьюринга.
При этом что такое «настоящий» — никто толком объяснить не может.
Это безошибочный перевод, очевидно же ;)
Безошибочный перевод никто сделать не в состоянии. Просто потому не все тексты имеют один смысл (классическое «Эти типы стали есть в прокатном цехе» с тремя возможными вариантами смысла). Потому это «очевидное» определение, увы, абсолютно бессмысленно.
Не вижу никакого противоречия. Ваш пример вырван из контекста, очевидно, что если предыдущее предложение было, скажем, «Заказчик интересовался такими-то типами стали», то двусмысленность исчезает. Если же рассматривать дву-(или более)-смысленный кусок совсем без контекста, то логично ожидать несколько вариантов перевода (никто же не удивляется, когда видит в словаре 15 вариантов перевода слова, и словарь из-за этого не становится «плохим»).
«Перевод Бога»? С таким подходом теоретически «настоящий» перевод возможен, но практически — его неспособны сделать никакие реально существующие переводчики (ни машины, ни человеки), так что всё равно смысла в подобном определении нет. Потому что для понимания контекста человек должен быть «в теме», а существование множества культур и субкультур гарантирует, что знать о всех «темах» не сможет никто.

Выйдет как в Mass Effect: для осуществления полного и точного перевода придётся уничтожить человечество, чтобы новые контексты, наконец, перестали появляться.
Потому что для понимания контекста человек должен быть «в теме», а существование множества культур и субкультур гарантирует, что знать о всех «темах» не сможет никто.
Ну, меня-то вполне устроит специализированный переводчик для конкретной предметной области. Если вы рассуждаете о переводчике, который безошибочно и сходу сможет перевести любой текст в любой предметной области, то а) мы с вами изначально говорили о разных вещах, и б) да, я согласен — в таком случае говорить о «идеальном переводе» бессмысленно.
Ну, очевидно же, что как и в ИИ критерием может быть неотличимость от работы «человеческого» переводчика, вариант «теста Тьюринга».
Про вариант «теста Тьюринга» я уже говорил.
Периодически встречаю переводы, авторы которых успешно проваливают тест Тьюринга.
Верно. Что не мешает этому критерию существовать.
С другой стороны я почти всегда могу определить машина ли переводила, или человек (даже корявый и неумелый), конечно если последний переводил сам, а не через гугль-транслейт.
Типы (люди), типы стали (виды металла), а какой третий смысл?
Болт Кранк, которому строго указывают, что и где он должен есть.
Например, так: «Некоторые типы препаратов понижали утомляемость прокатчиков и их восприимчивость к плохим условиям труда. Эти типы стали есть в прокатном цехе».
«Перевод — как женщина, если он красив то неверен, если верен — то некрасив.»(с)

Перевод — это не более чем адаптация текста к реалиям того языка, на который переводят. Она может быть хуже или лучше, но сказать однозначно «вот это ошибочно, а это безошибочно» — нельзя в принципе.
Для начала — как переводить идиомы/мемы? Дословно или все же дорабатывая напильником и заменяя на неточный, но понятный там, куда переводим, аналог?..
управляемый термояд давно сделан еще в СССР, просто выход энергии почти не превышает затраты на его поддержание.

вот как раз новая установка должна сделать это пригодным для коммерческого использования
Управляемый термояд — это водородная бомба. Вполне себе управляемый, управляемо взорвали — она взорвалась. Вопрос не в этом.
Тогда машина, катящаяся под откос — тоже эталон управляемости: захотели — толкнули — покатилась.

Управляемость процесса подразумевает возможность поддерживать его любое время, а также при желании прекратить в любой момент. Водородная бомба такого не позволяет.
Качественный переводчик должен вкурить тему.
Пока компы не научатся вкуривать тему нормального перевода не будет.
Первопроходец статистического онлайн Google
Здесь, очевидно, пропущено слово.

Год назад компания Гугл запустила полнотекстовый офлайн-перевод на платформе Андроид.
Вы упускаете Bing — у пользователей Windows Phone переводчик (в т.ч. с оффлайновой базой) есть уже давно «из коробки»:

Да, действительно, Вы правы, Бинг мы упустили. Офлайн-перевод появился у них в 2012 году.
Отредактировал пост, спасибо!
Забавно, но компьютеры пока не научились нормально переводить.
Так и люди не научились. Например, в тексте полно фраз «rule-based» и названий, набранных латиницей («iOS», «Candide») и прочее.
А как по-вашему должен быть переведен iOS?
Он не переведён должен быть, а транслитерирован.
Айоэс?
«АйОС» очевидно. Ведь вы, наверное, так это слово произносите?
Я произношу как «аёс», например. Иногда как «аёэс».
Действительно, переводчики старой школы настаивают на переводе названий иностранных компаний, брендов и т.п. Они опираются на то, что читатель может не знать, как именно читается то или иное слово. Но в современных реалиях и подобных контекстах это не совсем уместно. Правила чтения наиболее распространенных европейских языков хотя бы частично знакомы большинству взрослых людей. А если читатель решит поискать информацию об упомянутом продукте или бренде и введет кириллическое написание, найдет он гораздо меньше информации о нем, чем если бы искал латиницей. Заставлять читателя проводить обратную транслитерацию, чтобы поискать информацию, согласитесь, странно: гораздо больше вероятность совершить ошибку. То же касается и терминов: если он чаще встречается и лучше описан в англоязычной литературе, то имеет смысл давать его по-английски, ну или давать сам термин или его перевод в скобках.
В первом упоминании оригинальное написание названия указывается в скобках. Кстати, вы с первого раза читаете названия «Yves Rocher» правильно? Терминам надо подыскивать нормальные названия, которые укажут на смысл, в скобках можно в первый раз указать термин на другом языке.

Человечество так давно уже делает, никаких проблем.
Проблемы могут возникнуть, только если неясно, на каком именно языке что-то написано, но это редкость. В сложных случаях действительно уместны скобки, не спорю. Но с утверждением, что все и всегда нужно переводить, не соглашусь.
Правила чтения наиболее распространенных европейских языков хотя бы частично знакомы большинству взрослых людей.

Не раз и не два видел на Хабре неудачные попытки транслитерировать венгерские имена, в том числе знаменитого тов. Mihaly Csikszentmihalyi
Значит, не настолько очевидны правила чтения европейских языков.
При всем уважении к венгерскому языку, не стал бы относить его к наиболее распространенным. Лично я отношу к ним английский, немецкий, французский, испанский.
Начнём с того, что на названии не ставят пометки, на каком языке его нужно читать.
Знаете, вот есть два таких хоккеиста в НХЛ — один действующий, один закончивший карьеру.
Derek Roy
Patrick Roy

Их фамилии пишутся на английском(!) совершенно одинаково. Вот только Дерек — Рой, а Патрик — Руа.

И никакими правилами это прочтение не определить. Это можно только знать.
Попробуйте, пожалуйста, прочитать вслух следующие английские (британские) фамилии и названия:
Cholmondeley, Woolfardisworthy, Costessey, Cockburn, Worcester, Barnoldswick, Wriothesley, Aslackby, Osbournby, Leominster, Godmanchester, Lympne, Ulgham, Blidworth, Stivichal, Ratlinghope, Fetherstonhaugh, Pepys, Maugham, Pucknowle, Wybunbury, Dalziel, Trottiscliffe.
А потом посмотрите видео с правильным произношением:
Я почти уверен, что правильно прочитать удалось только Вустер (Worcester).
Ролик забавный, однако о всяких зубодробительных исключениях, топонимах и именах-фамилиях речи не шло.
Пардон, разве речь не идёт как раз о «переводе названий иностранных компаний, брендов и т.п.»? Больша́я, если не бо́льшая часть их образована как раз от имён-фамилий (Johnson & Johnson, Mars, PricewaterhouseCoopers, Deloitte, Ernst & Young, Wrigley's, Levi's и даже Nike) и топонимов (Adobe, Yosemite, Cisco и т.д.).
И почти все они вполне подчиняются стандартным правилам чтения и не вызывают никаких затруднений при попытке прочтения. В отличие от того, что в ролике: те слова могут вызвать затруднения и у нейтив-спикеров. Когда придумывают название компании или продукта, таких вещей все же стараются избегать.

Кстати, вот вы упомянули Nike, который у нас принято произносить как «Найк». Если сейчас везде начнут писать «Найки», как оно на самом деле произносится, ничего хорошего из этого не выйдет.
Я не только «Найки», я ещё и «Адоуби» и «Левис»/«Левайс» упомянул, если что. И не стал упоминать «Сэмсан», «Хёндэ» и прочих.
Если сейчас везде начнут писать «Найки», как оно на самом деле произносится, ничего хорошего из этого не выйдет.
Что от этого случилось бы плохого? =) Массовые разрывы шаблонов среди обывателей?
Просто лишние сущности. Есть исторически сложившиеся русскоязычные произношения названий этих компаний. Отчасти они устоялись именно в таком виде из-за того, что иностранные языки на практическом уровне знали очень плохо, отчасти из-за этих самых старорежимных переводчиков, которые переводили все названия, но переводили транслитерацией.

Названия азиатских брендов – отдельный разговор. Тот факт, что у нас их зачем-то пишут латиницей, действительно странная практика. У них есть оригинальные написания, которые латинизировались в разные периоды и по разным правилам. И попытки переносить их на русский с этих латинских написаний приводят к еще большим ошибкам в произношении. Взять тот же Samsung. Транслитерация старой школы дает нам «Сасунг», вы читаете по правилам чтения английского – «Сэмсан». Тогда как оригинальное корейское произношение ближе к «Самсон» с носовым «н».
у нас их зачем-то пишут латиницей, действительно странная практика
Так в том и дело, что «международное» название всех компаний пишут латиницей. Принято так. И знать, по каким правилам его нужно читать и как его «искорёжили» при переносе на латиницу — невозможно только по одному названию. Поди догадайся, что Hyundai — это «Хёндэ». Я даже не знаю, по каким правилам это нужно читать, чтобы так получилось.
Кроме того, есть же и всякие последствия обрезания и склейки, как Hynix (хёникс, потому что Hyundai Electronics) или Asus (обрезанный „pegasus“)
Странная штука – только лишь двойная транскрипция и транслитерация. В одном проходе нет ничего страшного.
Я просто не понимаю, почему вы считаете русскоязычное население каким-то особенным. Англоязычные люди как-то справляются с прочтением немецких или французских названий, ну или коверкают их под себя. Как произносить, вообще большого значения не имеет, бренды должны узнаваться в написании и легко искаться в интернете. Если я прочитаю в какой-нибудь статье «Эдоуби», я с большой долей вероятности буду искать несуществующий Adoby или Adobey. Упомянув же в разговоре «Адоб», я буду понят собеседником.
Я просто не понимаю, почему вы считаете русскоязычное население каким-то особенным. Англоязычные люди как-то справляются с прочтением немецких или французских названий, ну или коверкают их под себя.
Не то, чтобы прямо особенным, просто кириллица используется не в таком огромном количестве языков, как латиница. К тому же, кириллица в русском намного более строга и фонетична, трудно ей написать что-то такое, что бы невозможно было прочитать правильно. В то время как в том же английском как раз повсеместен подход чтения «потому что так принято читать».
Скрытый текст
Вспомним, например, Ghoti, которая, с одной стороны, читается как «фиш», а с другой — не читается вообще. Традиционные blood-flood VS gloom-hood. Опять же, не забудем, что для английского нет единого авторитетного источника «правильного» произношения (языкового регулятора), так что и очевидно безграмотное написание и чтение регулярно становится нормой просто по причине широкой распространённости, см. extrovert, например. Ну, и ещё можно почитать доводы сторонников реформы письменного английского, тоже интересно.
Странная штука – только лишь двойная транскрипция и транслитерация. В одном проходе нет ничего страшного.
Не понял вот эту часть совершенно.
Военные эту проблему давно решили таким образом:
Алфа-Делта-Оскар-Браво-Эко
А во французском вообще полный швах: даже банальное знакомое всем «мерси боку» (с детства помню «судьбе шепнем мерси боку» из «Трех мушкетеров») пишется как merci beaucoup. Легко ли было бы угадать, как это произносится?
Как это ни странно, но с транскрипцией во французском в разы лучше, чем в английском. Слов с непредсказуемым произношением не больше тридцати, еще штук тридать — слов с немой h, с которыми не делается связывание, в остальном, правила очень простые. В том же «merci beaucoup» все просто:
  • m — м
  • е — э
  • r — р
  • c — с (потому что дальше идет одна из букв e, y, i)
  • i — и
  • b — б
  • eau — о (всегда)
  • c — к (потому что дальше не идет одна из букв e, y, i)
  • ou — у (всегда)
  • p — никак (последняя согласная слова, не равная r или c)
В плане количества букв, приходящихся на один звук (как eau), или которые не читаются или читаются непривычно для русского слуха (например «en» как «ан» в слове ensemble) мне кажется французский сильно превосходит английский и многие другие европейские языки.

Человеку который французский не знает навскидку предсказать как читается слово будет довольно сложно. Ну а речь в этой ветке как раз шла о том, нужна ли русская транскрипция для иностранных слов. ИМХО для французского нужна :-)
И ещё Maugham, конечно же. Остальные действительно клёвые очень. :)
Я бы только Lympne правильно прочитал, там просто как-то больше никак.
Тут интересн недавний случай: история с Greenpeace и нефтедобывающей платформой. Почему то все (или во всяком случае все которые я видел) «авторитетные» российские новостные агенства сообщили, что это было в «голландском городе Ижмуйден» (возможно, первоисточником был сайт greenpeace.ru). На самом деле, это голландский город IJmuiden (да, 2 заглавные, потому что в голландском это диграф). Произносится же это по-голландски как Аймауден или Аймёйден (в более старом, и традиционно принятом для русской транслитерации, варианте).
В БСЭ написано Эймёйден. Очевидно, что тут проблема с фактчекингом, которая среди журналистов прослеживается все чаще. Достаточно было просто ввести название в поисковик, чтобы понять, что ничего транскрибировать или транслитерировать не нужно, т.к. есть историческое наименование. Про перевод топонимов у нас есть даже целый пост.
Фразу из статьи «Little John was looking for his toy box. Finally he found it. The box was in the pen.» Яндекс переводит так: «Маленький Джон искал его ящик для игрушек. Наконец он нашел ее. Коробка была в загоне.»

Не «ручка» конечно же, но и не «детский манеж». Кроме того, почему «её»? Род определился по «коробке»? Но искал он таки «ящик». На мой взгляд род местоимения следую определять по тому, на что оно ссылается раньше по тексту.
Для того, чтобы род местоимения определять по тому, на что оно ссылается нужно для начала начать переводить не отдельные предложения (как все переводчики делают сегодня), а целые фразы. Такое ощущение, что вы статью вообще не читали и воспринимаете Яндекс как маленького мальчика, который ещё немножко путается, а не как систему статистического перевода. Что, в принципе, хорошо: если вы начинаете искать подобные проблемы, то это говорит о том, что переводчик, в целом, вполне работоспособен.
Т.е «её» это наиболее вероятный перевод it в контексте предложения «Finally he found it.»?
Забавно. Особенно если учесть тот факт, что без точки перевод резко меняет род на противоположный.
Известная беда статистического подхода: they are often wrong but never in doubt.

Сама эта фраза, кстати, очень хорошо показывает «блеск и нищету» всех этих систем. Yandex вот прямо сейчас на это не попадается, но вот Google Transalte:
«They are often wrong but never in doubt.» => «Они часто ошибаются, но никогда не сомневаются.»
«They are often wrong but never in doubt» => «Они часто не ошибаются, но никогда не вызывает сомнений»
Что точка-то творит, а? А вы про «его»/«её»…
Зарегистрируйтесь на Хабре, чтобы оставить комментарий