maybe_elf 30 мая 2020 в 13:21

OpenAI представила алгоритм для текстов GPT-3, который обучили на 175 млрд параметров

2 мин

27K

Алгоритмы*Машинное обучение*Искусственный интеллект

+18

Комментарии 20

darkAlert 30 мая 2020 в 14:20

PyTorch всех победил

SNYPS 30 мая 2020 в 16:51

Ждём триллион параметров в 2021, а выкладывать не хотят опять ради хайпа

YuraLia 30 мая 2020 в 18:23

Что за название статьи? Почему оно не отражает суть совершенно? Ведь в оригинальной публикации сразу в названии отражена суть достижения «Language Models are Few-Shot Learners». То что там сколько то параметров итп — вторично. Если бы параметров было бы в 10 раз больше, это было бы более впечатляющее достижение? А если бы такой результат был бы получен для модели в которой 100 раз меньше параметров, то наверное он не стоил бы публикации?

Hardcoin 31 мая 2020 в 17:54

Для вас вторично, может потому, что вам тема не особо интересна?

Количество параметров косвенно показывает перспективы. Если бы было в сто раз меньше параметров, это было бы огромное достижение. Сейчас люди склоняются к тому, что это нереально (как минимум с имеющимися проходами).

А если бы параметров было бы в 10 раз больше, то это было бы важное достижение в деле обучения таких огромных моделей (это сложнее, чем маленькие), но именно результат обучения в этом случае выглядел бы совсем грустно.

YuraLia 31 мая 2020 в 19:48

Тема мне интересна, и препринт я видел раньше чем эту заметку, но мне не понравилось что название этой заметки, мягко говоря, искажает суть главного достижения. Я не утверждаю что трейн настолько больших моделей сам по себе не является значимым достижением. Но куда более важным является что с ростом числа параметров произошли качественные улучшения. Но названия заметки склоняет к мысли что достижения именно в числе параметров «OpenAI представила алгоритм для текстов GPT-3, который обучили на 175 млрд параметров». Т.е. в духе — «советские роботы — самые большие роботы в мире».
С таким же успехом можно было бы вынести в название размер батча, количество видеокарт/TPU задействованных в трейне или потраченного электричества:

«OpenAI представила алгоритм для текстов GPT-3, который обучили на 1536 GPU»

И представьте ситуацию, что эти исследователи натрейнили настолько большую модель, но она мало чем бы отличалась от предыдущих, давала прирост доли процентов в бенчмарках и все. Судя по всему, названия заметки относится скорее к такой ситуации.
Вот например неплохое видео с разбором этой статьи. Там автор тоже отмечает масштаб модели, но намного больше акцентирует внимание на качественных отличиях

DesertFlow 1 июн 2020 в 03:55

Имхо, в качестве новости все достаточно хорошо описано. Число параметров о многом говорит для тех, кто следит за этой эпопеей. Ваше замечание тоже справедливо, например о попытках обучения моделей с миллиардом параметров на китайских мощностях заявлялось еще несколько лет назад (но без продолжения, видимо ничего толком не вышло).

Работа с few-shot это не основное достижение GPT-3. Это скорее предмет обсуждения, что-то неожиданное, что появилось в этой большой модели. Не факт, что со временем значение этого достижения не будет пересмотрено в меньшую сторону. Это как с GPT/GPT-2 — на момент появления казалось большим прорывом, но сейчас качество генерации ими текста уже не воспринимается таким уж "интеллектуальным".

Но сам по себе качественный рост у 175 B модели при работе с Few-Shot примерами очень любопытен. Я еще на первых GPT заметил, что они иногда выдавали редко используемые факты. Какие-то имена, события, редко используемые словесные обороты. Как будто модель запомнила их, что для нейросетей, в общем-то нехарактерно. Маленькие сети работают скорее как статистические модели, лишь изредка проявляя что-то большее.

Это как если бы вы запомнили что-то из прочитанной книги, а потом применили это полученное знание в разговоре к месту. Тут ключевой момент, что это единичный выделенный факт/знание, и что он применен к месту. Признак сильного интеллекта.

GPT-3 развила эту способность. И теперь способна выделяет эти факты из нескольких показанных ей примеров. Это очень воодушевляет. Судя по всему, эта нейросетевая архитектура постепенно движется в сторону сильного интеллекта. Но, повторюсь, это лишь предмет обсуждения, догадки, надежды. Главное достижение GPT-3 все же обучение (качественное) 175 млрд модели. У которой именно благодаря размеру, что доказывается графиками в статье, проявились новые любопытные свойства.

Так что с заголовком новости все ок, не придирайтесь )

Alexsey 31 мая 2020 в 01:58

Исследователи пока не представили саму модель, так как опасаются, что ее навыки могут быть использованы во вред.

Второй раз один и тот же трюк не работает. Ждем где-нибудь через полгода полную модель.

denisshabr 31 мая 2020 в 10:51

Дорвеи выйдут на новый уровень.

progchip666 31 мая 2020 в 13:27

Я всё жду когда нормальный переводчик появится, качеством получше чем гуглтранслейт, а они вместо этого спамбота делают, который окончательно замусорит интернет публикациями на страницах сайтов. Другого достойного применения подобной новинки я как то не вижу.

-1

beduin01 31 мая 2020 в 14:46

> Я всё жду когда нормальный переводчик появится

www.deepl.com/translator

-1

Valeratal 31 мая 2020 в 19:44

этот тоже не так чтобы идеальный. А иногда просто шокирует :) И постоянно путает "вы" и "ты" иногда в одном предложении

progchip666 1 июн 2020 в 06:21

А жалко, я бы готов был, думаю как и многие другие, даже на платную версию, чтобы нормальный текст читать или скажем автоматом получить англоязычную версию сайта без ляпов «алиэкспресса»

logran 31 мая 2020 в 20:18

Другого достойного применения подобной новинки я как то не вижу.

aidungeon.io — имхо вполне годное применение.
И не всегда надо, чтобы было практическое, ориентированное на зашибание бабок, применение. Иногда достаточно того, что это весело или может применяться в искусстве. Те же нейро-тексты для нейро-музыки из jukebox создать.

ideological 31 мая 2020 в 14:09

175 млрд параметров или в 2 раза больше — осмысленности тексту не прибавят.

… пользователям становится все сложнее отличать такие тексты.

Текст может быть со статистически верно расставленными словами и при этом быть бесполезным. Да и сами люди тоже иногда пишут всякий бред или «воду», но это другая проблема.

red75prim 31 мая 2020 в 17:34

Кроме "сложнее отличать" улучшилась точность на задачах без примеров, с одним примером и несколькими примерами (тюнинг весов сети под задачу не использовался).

Без примеров: "3432+2121=". С одним примером. "2+2=4 9837+2340=" и так далее

mad_god 31 мая 2020 в 14:26

Такс, он сможет дать краткое описание всех художественных книг? Когда-то мечтал такое сам написать

ideological 31 мая 2020 в 15:11

Ага :). Часто с этим не справляются даже авторы попурри-книг.

subcommande 1 июн 2020 в 09:06

Скорее краткий пересказ со спойлерами.

moryak2004 1 июн 2020 в 12:55

Я как читаю статьи про достижения OpenAI и стоимости обучения их моделей, у меня всегда возникает один и тот же вопрос. А кто их финансирует? Может кто подскажет, как эти разработки окупаются?

knrhzm 14 окт 2022 в 18:49

Обученная GPT-3 в максимальной комплектации (175B) при генерации 1 страницы текста превратит в тепло 4 вт*ч э/энергии.
«Война и мир» 5кВт*ч по объему без учета ценности содержания.
Получаем ориентиры стоимости низкоквалифицированной офисной деятельности в энерговалюте.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

OpenAI представила алгоритм для текстов GPT-3, который обучили на 175 млрд параметров

Комментарии 20

Другие новости

Истории