Как стать автором
Обновить

Как мы в Just AI создавали и тестировали собственную LLM JustGPT — третью большую языковую модель в России

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров9.7K
Всего голосов 17: ↑14 и ↓3+11
Комментарии15

Комментарии 15

Статья была бы кхм чуть более полезна для коллег по цеху, если бы вы хотя бы написали, сколько своих данных вы добавили в файнтюн и какая там была разбивка по доменам/темам.

А то пока содержимое статьи можно кратко прорезюмировать так: 1) взяли чужие инструктивные данные, 2) взяли чужие диалоговые данные, 3) нагенерили диалоги через апишку openai 4) отфайнтюнили чужую foundation model, причем максимального размера из доступных, стандартным способом с LoRA. 5) на сотне тестовых вопросах как-то проверили, что она выдает. PROFIT!

Извините за токсичность ;)

Илья, спасибо за комментарий (не токсичный, все ок!)! Действительно, вы правы, примерно так все и есть. И мы не видим здесь чего-то зазорного. Цель нашей статьи как раз в том, чтобы рассказать, что уже сегодня можно сделать на базе Llama-2, не имея эксклюзивного доступа к суперкомпьютерам, ресурсам и данным, а не в том, как создать свою LLM с нуля.

Мы рассказываем о том, что постарались предложить один из подходов к сравнению результатов работы моделей и применить его на практике. Наши тестовые данные открыты, там пока 200 вопросов, структурированных по темам, которые нужны на практике - нам и нашим клиентам. Мы применили их к разным моделям и сделали тест открытым - любой желающий может расширить его и сравнить результаты всех текущих и будущих моделей самостоятельно.

GigaChat, JustGPT - опять одни англицизмы. Почему бы не назвать модель "Балалайка" или "Ботаник"? Всему миру пофиг на локальные потуги на фоне триумфа GPT-4, а российским пользователям приятно.

делаете то что делаете, а любите то что любите

скажите результат какой, после того как сделали,
чем лучше первых двух?

что выбрать?
- забыть (если такие же какие первые две)
- задуматься (если лучше чем первые две)
- использовать сразу (если сопоставимо с сайгой)


ага набежали "коллеги" и заминусовли
ну молодцы,

5 комментариев
0 полезности в результате
но минуса обязательно...

И почему ллм собственная....

Конечно, слышали и многому учимся. Технически мы сделали наши дообученные Llama-2 70b примерно одновременно, но про нашу модель правильнее сказать "третья коммерчески доступная", среди моделей, развернутых на инфраструктуре и с интерфейсом в виде продукта.

Saiga Team - это профессиональная команда, которую мы очень уважаем. И думаем, что Saiga 70b, открытая модель, сопоставима с нами и моделями этого уровня. Будем рады сравнению и попробуем и сами его сделать.

«третья коммерчески доступная»

Могу что-то путать, но разве LLaMA-based модели не закрыты лицензией к коммерческому использованию?

Запрещена к коммерческому использованию была только первая версия Llama. Llama2, которую мы использовали в качестве базовой модели, разрешена.

А есть ли данные сравнения не с Янекс/Сбером, а с оригинальной Llama-2, которую Вы дообучали?

Интересно, где лежит предел дообучения LoRa, т.е., прибавилось ли у Вашей модели по сравнению базой и с прямым конкурентом ума/знаний? Или только удалось наложить поведенческие паттерны?

Оригинальная LLama-2-70b-chat нас не устроила чрезмерными переходами на русский язык, очень длинными ответами с бесполезной подробностью (зачем тратить лишние токены, тем более, что в конечном итоге это будет бить по карману пользователя)

На внутренних доменных данных дообучение показало в прибавлении "ума"

Спасибо за статью!
А сколько в итоге обучающих данных у вас получилось и каким образом вам удалось "полечить Llama 2 от проблем с русским языком"?

Привет!

Большое спасибо за статью, желаю вам удачи в работе над моделью!

Если не секрет, не могли бы поделиться, на каких мощностях вы производили дообучение на LoRA адаптерах?

Борис, большое спасибо за обратную связь! Дообучали на 8 Nvidia Tesla A100 40GB

Зарегистрируйтесь на Хабре, чтобы оставить комментарий