Pull to refresh

Comments 8

Не освещён вопрос расширения словаря. Я так понимаю, токеном перевода является слово, а если нужно добавить ещё слов, то сеть нужно снова обучать с нуля?

У гугла буква во всяком случае в английском.
не совсем. у них есть фиксированный набор достаточно частых слов, а незнакомые слова разбиваются на n-gramm-ы. отдельные символы тоже нормальный вариант, но n-gramm-ы лучше работают. какого размера у них n, я не знаю. было бы логичным иметь что-то более-менее гибкое.
Может мы говорим о разных версиях.
Ту что я читал работала так
первый слой аналог wordbag для букв — передаются в lstm + дополнительное значение конец слова.
далее сжимается полученное в фиксированный вектор передающийся далее в многослойную lstm с возвратами. Позволяет игнорировать ошибки в написании слов.

С учетом того как они все клипают за полгода все будет вверх ногами.
Я говорил об этой статье — [1]. Я пролистал ее еще раз и там делается что-то такое — есть фиксированный словарь, который обучается перед обучением непосредственно модели перевода. Как формируется словарь — не суть на данный момент. В этот словарь можно положить n-gramm-ы разного размера, которые вполне могут оказаться словами, вроде «the». В этой статье они показывают, что во-первых, для разных языков надо брать разный размер словаря, во-вторых в общем вроде как чем словарь больше, тем лучше.

[1] https://arxiv.org/pdf/1609.08144.pdf
Гугловский поисковик работает на 7 n-gramm, для «исследователей» они дают скачать, но не для коммерческого использования. Возможно и в переводе они используют такие же модели.
Sign up to leave a comment.