AlexAntonov 25 авг 2020 в 17:41

Обратный перевод для Нейронного машинного перевода

8 мин

2.9K

Комментарии 6

jjdeluxe 25 авг 2020 в 20:37

Спасибо за статью! Однозначно в закладки)
А не пробовали на больших моноязычных текстах обучить экодер-декодер (декодер потом выбросить), после чего энкодер заморозить и учить только декодер уже на аугментированых данных? Потом, конечно, можно слегка оттюнить и энкодер, но только совсем слегка)
У меня, когда занимался машинным переводом, как-то до этого руки не дошли, потому и интересуюсь)

AlexAntonov 25 авг 2020 в 20:58

Именно так не пробовал. Записал себе идею на посмотреть) Из относительно похожего сейчас рекомендуют копать в сторону github.com/facebookresearch/XLM

averkij 26 авг 2020 в 10:38

А на каком подкорпусе BLEU считался? 30+ для бейзлайна это сильно.

AlexAntonov 26 авг 2020 в 12:37

Дев и тест корпуса автоматически рандомно собрали из ранней версии датасета, когда было еще несколько десятков тысяч предложений. В обучающей выборке их, конечно, нет. Хотя мы осознаем, что они далеки от идеала). На самом деле абсолютные значения BLEU практически ничего не значат, важнее сравнение их между собой, примерно +2-3 BLEU видно глазами, но тоже не 100% правило. Вот к примеру тут github.com/masakhane-io/masakhane-mt/tree/master/benchmarks/en-yo/jw300-baseline обучение на автоматически выровненных данных, то есть на более грязном корпусе, и тоже высокие показатели, причем тест лучше, чем дев существенно.

averkij 27 авг 2020 в 12:07

Согласен, для относительного сравнения, думаю, нормально так делать.
Сейчас над универсальным автоматическим выравнивателем на основе ембеддингов по предложениям работаю, — для распространенных языков мультиязыковые модели типа USE и sentence-transformers хорошо работают, а для малоресурсных типа чувашского можно выравнивать через прокси-текст (машинный перевод на русский), а потом делать обратное сопоставление. Тоже будет дополнительный ресурс для обучения.

AlexAntonov 27 авг 2020 в 17:57

Интересно! Мы у себя делаем выравнивание вручную, чтобы качество корпуса было выше, а то он итак небольшой

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время