Открыть список
Как стать автором
Обновить

Авторы проекта GPT-Neo пытаются создать аналог GPT-3 с открытым исходным кодом

Open sourceМашинное обучениеИскусственный интеллект

В июне OpenAI презентовала модель машинного обучения GPT-3, обученную на 175 млрд параметров. Эта модель является одной из самых сложных. В отличие от предшественников GPT-2 и GPT-1 ее исходный код или обучающий набор данных решили не открывать. Теперь создатели проекта GPT-Neo от EleutherAI решили воссоздать аналог GPT-3.

Коммерческая лицензия на GPT-3 доступна только для Microsoft, которая инвестировала $1 млрд в OpenAI и построила суперкомпьютер на базе Azure, предназначенный для дальнейших исследований компании.

Было предпринято уже несколько попыток воссоздать GPT-3 с открытым исходным кодом. Однако нынешнюю можно назвать самой серьезной. Создатели GPT-Neo Коннор Лихи, Лео Гао и Сид Блэк собирают рядовых исследователей в области машинного обучения с открытым исходным кодом, чтобы начать проект не позднее августа.

GPT-Neo это кодовое название серии языковых моделей, основанных на преобразователях в стиле архитектуры GPT с открытым исходным кодом. У проекта есть кодовая база, построенная на Tensorflow-mesh (для обучения на TPU) и на Deepspeed (для обучения на GPU). Обе могут масштабироваться до размеров GPT-3, но проекту пока не хватает TPU для полного обучения модели со 175 млрд параметров.

Большую часть модели уже построили и обучили модели размера GPT-2, а также реализовали несколько экспериментальных архитектур. В настоящее время ведется работа над завершением репликации модели размера GPT-2.

Как отметили исследователи, самая большая модель, которую им приходилось тренировать для одного шага, включала 200 млрд параметров.

В октябре команда ученых из Мюнхенского университета Людвига-Максимилиана разработала методику глубокого обучения для моделей обработки естественного языка. Она обучила модель Transformer NLP с 223 млн параметров, которая превзошла GPT-3 более чем на 3% в тесте SuperGLUE.

А на днях в Google представили метод, который, по утверждению компании, позволил обучить языковую модель, содержащую более триллиона параметров. Исследователи заявили, что новая модель с 1,6 трлн параметров, по-видимому, является крупнейшей в своем классе на сегодняшний день.

О том, как разработчики пытались применять GPT-3 в обычной жизни, можно почитать здесь (1, 2, 3).

Теги:gpt-3nlpоткрытый кодязыковая модельобработка естественного языка
Хабы: Open source Машинное обучение Искусственный интеллект
Всего голосов 8: ↑8 и ↓0 +8
Просмотры3.3K

Комментарии 3

Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

Похожие публикации

Deep Learning engineer (NLP Model)
от 150 000 ₽IvolutionМожно удаленно
Technical Lead, Open Source
от 8 000 $Cube.jsМожно удаленно
Senior Python разработчик
от 160 000 ₽ArtezioМосква
Senior Python разработчик
от 2 700 $ArtezioМинск
Data Scientist / Machine Learning Engineer
от 180 000 ₽ProfitClicksМожно удаленно

Лучшие публикации за сутки