Краткость — сестра таланта: Как сделать Transformer/Summarizer на Trax / Комментарии / Хабр

khmelkoff 11 апр 2021 в 15:48

Здравствуйте! Код выложил весь, должно запускаться на Colab прямо из репозитария. На 8Гб не пробовал, думаю, должно хватить. У меня в 8 помещается RuBERT при размере текста в 64 токена, а там в 6 раз больше параметров. В крайнем случае попробуйте другую модель. В этой статье трансформер из отдельных блоков, но по сути это TransformerLM из репозитария trax, можно попробовать ReformerLM, он как раз сделан чтобы экономить память. Вот здесь я с ним экспериментирую. Правда он капризничает при загрузке весов. Написал в статье как справиться.

Краткость — сестра таланта: Как сделать Transformer/Summarizer на Trax

Комментарии 2

Публикации

Истории