Как стать автором
Обновить

Комментарии 2

Спасибо, было интересно почитать!
Хотел бы обучить модель на английских текстах под свою задачу. Реально ли на 8Гб GPU? Достаточно ли кода репозитория или что-то осталось не выложено?
Заранее спасибо!

Здравствуйте! Код выложил весь, должно запускаться на Colab прямо из репозитария. На 8Гб не пробовал, думаю, должно хватить. У меня в 8 помещается RuBERT при размере текста в 64 токена, а там в 6 раз больше параметров. В крайнем случае попробуйте другую модель. В этой статье трансформер из отдельных блоков, но по сути это TransformerLM из репозитария trax, можно попробовать ReformerLM, он как раз сделан чтобы экономить память. Вот здесь я с ним экспериментирую. Правда он капризничает при загрузке весов. Написал в статье как справиться.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории