just_ai 20 сен 2023 в 09:59

Как мы в Just AI создавали и тестировали собственную LLM JustGPT — третью большую языковую модель в России

Средний

8 мин

9.7K

Блог компании Just AIТестирование IT-систем*Машинное обучение*Искусственный интеллектNatural Language Processing*

Обзор

+11

Комментарии 15

inkoziev 21 сен 2023 в 08:55

Статья была бы кхм чуть более полезна для коллег по цеху, если бы вы хотя бы написали, сколько своих данных вы добавили в файнтюн и какая там была разбивка по доменам/темам.

А то пока содержимое статьи можно кратко прорезюмировать так: 1) взяли чужие инструктивные данные, 2) взяли чужие диалоговые данные, 3) нагенерили диалоги через апишку openai 4) отфайнтюнили чужую foundation model, причем максимального размера из доступных, стандартным способом с LoRA. 5) на сотне тестовых вопросах как-то проверили, что она выдает. PROFIT!

Извините за токсичность ;)

just_ai 21 сен 2023 в 13:08

Илья, спасибо за комментарий (не токсичный, все ок!)! Действительно, вы правы, примерно так все и есть. И мы не видим здесь чего-то зазорного. Цель нашей статьи как раз в том, чтобы рассказать, что уже сегодня можно сделать на базе Llama-2, не имея эксклюзивного доступа к суперкомпьютерам, ресурсам и данным, а не в том, как создать свою LLM с нуля.

Мы рассказываем о том, что постарались предложить один из подходов к сравнению результатов работы моделей и применить его на практике. Наши тестовые данные открыты, там пока 200 вопросов, структурированных по темам, которые нужны на практике - нам и нашим клиентам. Мы применили их к разным моделям и сделали тест открытым - любой желающий может расширить его и сравнить результаты всех текущих и будущих моделей самостоятельно.

Master_Yoda_810 21 сен 2023 в 10:25

GigaChat, JustGPT - опять одни англицизмы. Почему бы не назвать модель "Балалайка" или "Ботаник"? Всему миру пофиг на локальные потуги на фоне триумфа GPT-4, а российским пользователям приятно.

-2

dimnsk 21 сен 2023 в 12:09

делаете то что делаете, ~~а любите то что любите~~

скажите результат какой, после того как сделали,
чем лучше первых двух?

что выбрать?
- забыть (если такие же какие первые две)
- задуматься (если лучше чем первые две)
- использовать сразу (если сопоставимо с сайгой)

-2

dimnsk 28 сен 2023 в 10:49

ага набежали "коллеги" и заминусовли
ну молодцы,

5 комментариев
0 полезности в результате
но минуса обязательно...

domrik 22 сен 2023 в 01:03

А про Сайгу вы не слышали? Тоже тюн Лламы. Или почему именно ваша третья?

den4ik_084720 22 сен 2023 в 04:11

И почему ллм собственная....

just_ai 22 сен 2023 в 16:17

Конечно, слышали и многому учимся. Технически мы сделали наши дообученные Llama-2 70b примерно одновременно, но про нашу модель правильнее сказать "третья коммерчески доступная", среди моделей, развернутых на инфраструктуре и с интерфейсом в виде продукта.

Saiga Team - это профессиональная команда, которую мы очень уважаем. И думаем, что Saiga 70b, открытая модель, сопоставима с нами и моделями этого уровня. Будем рады сравнению и попробуем и сами его сделать.

dvasilev07 27 сен 2023 в 10:10

«третья коммерчески доступная»

Могу что-то путать, но разве LLaMA-based модели не закрыты лицензией к коммерческому использованию?

just_ai 27 сен 2023 в 10:16

Запрещена к коммерческому использованию была только первая версия Llama. Llama2, которую мы использовали в качестве базовой модели, разрешена.

dmiche 25 сен 2023 в 15:23

А есть ли данные сравнения не с Янекс/Сбером, а с оригинальной Llama-2, которую Вы дообучали?

Интересно, где лежит предел дообучения LoRa, т.е., прибавилось ли у Вашей модели по сравнению базой и с прямым конкурентом ума/знаний? Или только удалось наложить поведенческие паттерны?

k_in_square 28 сен 2023 в 13:53

Оригинальная LLama-2-70b-chat нас не устроила чрезмерными переходами на русский язык, очень длинными ответами с бесполезной подробностью (зачем тратить лишние токены, тем более, что в конечном итоге это будет бить по карману пользователя)

На внутренних доменных данных дообучение показало в прибавлении "ума"

aioibella 12 окт 2023 в 08:25

Спасибо за статью!
А сколько в итоге обучающих данных у вас получилось и каким образом вам удалось "полечить Llama 2 от проблем с русским языком"?

BorisSmorodin 12 окт 2023 в 14:33

Привет!

Большое спасибо за статью, желаю вам удачи в работе над моделью!

Если не секрет, не могли бы поделиться, на каких мощностях вы производили дообучение на LoRA адаптерах?

just_ai 12 окт 2023 в 14:34

Борис, большое спасибо за обратную связь! Дообучали на 8 Nvidia Tesla A100 40GB

Зарегистрируйтесь на Хабре, чтобы оставить комментарий