Как стать автором
Обновить

Комментарии 6

Спасибо за статью! Однозначно в закладки)
А не пробовали на больших моноязычных текстах обучить экодер-декодер (декодер потом выбросить), после чего энкодер заморозить и учить только декодер уже на аугментированых данных? Потом, конечно, можно слегка оттюнить и энкодер, но только совсем слегка)
У меня, когда занимался машинным переводом, как-то до этого руки не дошли, потому и интересуюсь)
Именно так не пробовал. Записал себе идею на посмотреть) Из относительно похожего сейчас рекомендуют копать в сторону github.com/facebookresearch/XLM

А на каком подкорпусе BLEU считался? 30+ для бейзлайна это сильно.

Дев и тест корпуса автоматически рандомно собрали из ранней версии датасета, когда было еще несколько десятков тысяч предложений. В обучающей выборке их, конечно, нет. Хотя мы осознаем, что они далеки от идеала). На самом деле абсолютные значения BLEU практически ничего не значат, важнее сравнение их между собой, примерно +2-3 BLEU видно глазами, но тоже не 100% правило. Вот к примеру тут github.com/masakhane-io/masakhane-mt/tree/master/benchmarks/en-yo/jw300-baseline обучение на автоматически выровненных данных, то есть на более грязном корпусе, и тоже высокие показатели, причем тест лучше, чем дев существенно.
Согласен, для относительного сравнения, думаю, нормально так делать.
Сейчас над универсальным автоматическим выравнивателем на основе ембеддингов по предложениям работаю, — для распространенных языков мультиязыковые модели типа USE и sentence-transformers хорошо работают, а для малоресурсных типа чувашского можно выравнивать через прокси-текст (машинный перевод на русский), а потом делать обратное сопоставление. Тоже будет дополнительный ресурс для обучения.
Интересно! Мы у себя делаем выравнивание вручную, чтобы качество корпуса было выше, а то он итак небольшой
Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.