Pull to refresh

Comments 2

Спасибо за статью, но со стороны кажется что вы экспериментальным путем подобрали архитектуру сети под конкретный набор данных GLUE? Если увеличить количество параметров одного BERT в 10 раз, не будет ли он решать задачи еще лучше без маршрутизации?
Спасибо за вопрос! Вы правы, что данный проект рассматривался только в рамках задач GLUE, и в результатах может быть к ним предвзятость. Сравнение маршртиузирующих сетей с моделью x10 также имеет место быть, и результаты заранее не очевидны.


Для нас были важны их следующие преимущества по сравнению с моделью x10: технические, касающиеся производительности и идейные.

Технически, в настоящее время гораздо проще реализовать вариант маршртизрующих сетей, т.к. каждый эксперт целиком вмещается на стандартную видеокарту, в то время как вариант модели x10 требует последовательного параллелизма модели. Это труднее реализовать в современных библиотеках.

С точки зрения производительности, использование x10 скажется на скорости вычисления: 10 машин последовательно должны вычислять результат, вместо одной. Использование маршрутизации позволяет этого избежать, что может быть более важно чем небольшое улучшение качества.


Идейно, продолжение данного проекта подразумевает маршрутизацию через гетерогенных экспертов, а именно когда в наборе экспертов у нас такие текстовые эксперты как BERT, ALBERT, RoBERTa (где каждый способен следить за разными по структуре зависимостями), которые могут быть еще и обучены на различных датасетах (к примеру, BioBERT). Провести какую-то аналогию с масштабированием модели тут уже сложнее. В то же время, после обучения каждая команда (от каждой задачи) забирает себе только нужных ей экспертов, и это не приводит к значительным изменениям по сравнению с одним BERT-ом, что не так в случае модели x10.
Sign up to leave a comment.