Pull to refresh

Comments 41

Переводит как "Щука в Деньгах", вместо "Денег нет"
https://translate.yandex.ru/?utm_source=wizard&text=%D1%83%D0%BA%D1%89%D0%B0%20%D1%89%D1%83%D0%BA&lang=cv-ru
Как боретесь с распознаванием "транскрипции" и несколькими вариантами написания букв, есть несколько вариантов Юникод/Заимствования из Европейских языков и итд?
Или подобные тексты просто игнорируются?

Недостаточно хорошо боремся :) В данном случае правильное с точки зрения стандартной чувашской грамматики написание будет укща ҫук, и мы отлично справляемся с его переводом. Но из-за того, что не у каждого в раскладке клавиатуры присутствует буква "ҫ", в Интернете частенько вместо неё используют «щ». Будем улучшать наш Переводчик, обучая его таким тонкостям в том числе!
Вы можете построить синтаксическое дерево, в котором один узел соответствует одному символу (букве), взяв за основу все уникальные слова из предоставленных вам текстов. Дерево начинается от корневого элемента, не содержащего символ, его дочерние элементы — все первые буквы всех слов вашего набора. Первых букв не так много, соизмеримо с числом букв в алфавите. У каждого такого дочернего символа есть свои дочерние символы, которых тоже не больше, чем число уникальных символов алфавита. В таком дереве например из корневого элемента выходят все слова на букву А, рядом разветвления слов на букву Б и так далее (кстати сортировать дочерние элементы вероятно удобней не по алфавиту, а по частоте их встречания/использования в исходных текстах — чем чаще слово, тем его маршрут в дереве сильнее отклоняется влево, это если вы планируете изучать распределение и сторить графики).
В таком дереве транскрипции окажутся в некотором кластере этого общего «деревянного пространства». Их можно групповым действием обобщить и отметить маркером, а также определить правила перехода из них в «нормальные ноды дерева».
Кстати, составить список всех слов в тексте (из которых строится такое дерево) можно автоматическим очень простым способом. Составляете список всех символов встречаемых в тексте — это ваш алфавит, включая знаки препинания и спецсимволы.
Далее для каждого символа полученного алфавита, один раз вы заполняете маркер контекста. Например, все буквы, цифры и можно знак подчеркивания отнести к контексту «слова», все виды пробелов, переноса строк и прочие подобные им — выделяются в контекст «пробелы». Знаки препинания, арифметические операторы и по сути все остальные символы можно обобщить в контекст «знаки». Теперь просто бежите по текстам как по строке и накапливаете слова, как только контекст следующего символа начинает отличаться от контекста предыдущего — слово закончено, записываете в словарь и накапливаете «слово», состоящее из пробелов или знаков, идущих подряд после этого. Потом контекст снова меняется и вы можете сохранять слова только из контекста «слова» или уделять внимание еще и словам из знаков и словам из пробелов.
П.С. Так и интернет можно серфить, собирая слова в синтаксическое дерево, которое потом удобно анализировать, если найти его удачное отображение.

Удивительно! А как быть со словами в родственных языках, которые близки по написанию, но различны по семантике? Не портит ли это модель?

В целом, нейромодели справляются с «ложными друзьями переводчика» примерно так же, как и человек. То есть, если сеть при обучении видела примеры, где такое слово переводится верно, у неё есть все шансы запомнить специфику языка в этом вопросе. А если не видела — всё, что ей остаётся, это «позаимствовать» вариант перевода из родственных языков. Человек обычно поступает так же :)
Здравствуйте. А можно вопрос немного не по теме, но все же довольно важный, в т.ч. и для Яндекса: когда будет (и будет ли) приложение по распознаванию речи и переводу в текст на лету?
От Гугл есть, но там нужно говорить медленно и четко. Может Яндекс сможет убыстрить процесс, чтобы решать задачу в режиме реального времени?
Здравствуйте :) У Яндекса есть технология SpeechKit, которая, в частности, поддерживает распознавание речи в реальном времени («на лету»). Она как раз используется в Яндекс.Переводчике для ввода текста голосом. Если Вас интересует распознавание речи в отрыве от перевода, то можете попробовать Яндекс.Клавиатуру — в ней точно так же используется SpeechKit.
Спасибо за текст! А с какими языками пока все еще не удалось разобраться, но вы работаете над этим?
Мы сейчас ведём работу над машинным переводом ещё для нескольких языков России. Но лучше пока не будем раскрывать, для каких, чтобы не давать ложных надежд пользователям: всё-таки это экспериментально-исследовательские задачи, нет гарантий, что у нас в итоге получится. Хотя мы стараемся :)

А как вы находите энтузиастов? Для примера башкирский переводчик местами у вас не может перевести даже просто слова, хотя есть башкирско-русские словари и там эти слова есть. Может вам помочь с организацией переводчиков, которые некие базовые примеры ваши переведут?

Энтузиастам нас найти проще, чем нам — энтузиастов :) кто готов нам помочь, напишите на translate@support.yandex.com
Наконец кто-то обратил внимание на языки российских народов. Яндекс, вы молодцы!
начнёт что-то выдумывать в надежде угадать правильный ответ. Иногда она угадывает, иногда — нет.

Можно ли как-то в переводе помечать фрагменты, которые алгоритм попытался угадать, а не точно знает?
Для алгоритмов машинного обучения всё-таки не существует чёткой границы между точным знанием и попытками отгадать. Автоматически определять, где мы хорошо справились с переводом, а где, возможно, ошиблись — задача посложнее, чем непосредственно машинный перевод :)
Но мы подумаем над таким, спасибо.
Моя знакомая (русскоязычная) занимается составлением алфавита для малых народов (племен) Кении. Пока без нейросетей :) Есть язык и всё, без письменности, без книг, без переводчиков.

Конечно же кажется будто нейросеть всё делает сама, но верно замечено:
К счастью, нам на помощь пришли энтузиасты, которые за год помогли собрать 250 тыс. примеров
Красавчики! Большой труд.
И надеюсь когда-то технологии переводчиков будут способны сохранять вымирающие языки.

Нет, такого языка не существует. Есть Эрзянский и есть Мокшанский.

Вроде же он не един, Вам какой? Мокшанский или Эрзянский?

Маттур Яндекс!!! Малалла тӑрӑшӑр! Тавта пуҫ!

Антон, «основанные на правилах» переводчики — это вовсе не когда «пишут много регулярных выражений». То есть даже ничего похожего.
Согласен, что про регулярные выражения — некоторое упрощение. Продвинутые rule-based системы перевода использовали и морфологические анализаторы, и синтаксические парсеры. Но непосредственно за этап перевода отвечало множество ручных правил, что функционально эквивалентно использованию регулярных выражений.

Кроме того, совмещение переводчика с заложенными в нём экспертными знаниями (основанного на словаре и правилах) с нейросетью может дать синергетический эффект. Если подобрать правильный рецепт готовки этой смеси.

Интересно, насколько полученная искусственная пантюркская модель соответствует тюрки́, и почему его не приняли во внимание.

Он же, пусть и мёртвый последние лет 100, но зато развитый литературный язык с большим корпусом текстов, особенно религиозной тематики. И общей со всеми остальными лексики в нём должно быть больше всего. (Графика была арабская, но это частности же.)
Это определенно хорошая новость. Пар Яндекс, Пар!!!

Хоть бы малость рассказали про техническую часть. Какие нейросети, какие алгоритмы, и т.д, и т.п.

В Переводчике мы сейчас в основном используем нейросети на основе архитектуры Трансформер (правда, с некоторыми нашими доработками). Все карты раскрывать не будем :)
У меня вопрос — в чём бизнес? Не подумайте что я против сохранения культурного наследия, в любом случае думаю скоро мы много «языков» потеряем и надо сохранить хоть какие то автоматические переводчики.
В чем стимул.
Во-первых, это красиво!
Во-вторых, почему нет?
Главная задача Яндекс.Переводчика — помогать пользователям, и весь бизнес здесь в том, что довольные пользователи — это долгосрочная инвестиция. Кроме того, на примере подобных интересных нам исследовательских задач мы отрабатываем и обкатываем разные идеи и технологии, которые потом регулярно пригождаются где-то ещё в Яндексе.
Кроме того, мы работаем над поддержкой и других языков народов России.

А можете сказать о каких языках идет речь?
Я уже чуть выше в комментариях отвечал, что не хочется давать ложных надежд пользователям, поэтому пока называть языки не будем. Когда и если у нас всё будет получаться, обязательно про это расскажем :)
Если в списке есть кабардино-черкесский, и вам нужны будут материалы по нему, обращайтесь, помогу чем смогу.
Если работаете или будете работать над коми-пермяцким, хотелось бы поучаствовать с':

Фразу "красна девица" переводит дословно — "хĕрлĕ хĕр". В чувашском для слова "красивый" используют не красный, а жёлтый(яркий). Вот если я захочу помочь с переводом и нажму кнопочку редактирования, насколько полезным будет такое действие? Достаточно одного меня или нужно, чтоб несколько человек такое сделали? И насколько это повлияет на другие варианты использования слова "красный"?

Задам глупый вопрос, т.к. далёк от этой темы.
Вы не пытаетесь идти в сторону некоторой унификации? Через перевод в промежуточный язык с точной семантикой(не уверен что подобрал точное слово) построения предложений. Как у Логлана. Тогда не пришлось бы делать переводчик из любого языка в любой на прямую, а достаточно сделать из каждого в один и обратно.
Мне интересно какие трудности возникают на этом пути?
молодцы! хорошо, что поддерживаете малые языки России. это очень важная работа!

Спасибо. Вообще Чувашия одна из двух монореспублик, где коренное начеление (более 60%) преобладает. А Чебоксары — это прекрасный столичный город. Попробуйте найти 10 отличий (слева — Рио-де-Жфнейро), справа столица Чувашии — Чебоксары:
image

Only those users with full accounts are able to leave comments. Log in, please.