Pull to refresh

Comments 25

Добрый день! Fine-tuning на описанных данных длился 3 эпохи и занял примерно 52 минуты. Все использованные модели являются предобученными. 

Хорошо и осмысленно отвечает на вопросы в домене, использованном при дообучении.

А реально обучить модель на узко специализированные задачи построенные на узкоспециализированных наборах данных ? Например на данных с GitHub для языка программирования Питон/Си - там же есть история изменений? Они будут дата сетом - причём взять узкий диапазон изменений например - багфиксов или конвертации кода с Питон 2 на Питон 3 и тренировать узкую задачу - конвертация кода с Питон 2 на питон3 или поиск ошибок в косе на C - насколько это реально ?

С ходу сложно сказать, что получится, но идея интересная, стоит поисследовать! В целом никаких проблем нет, если грамотно составить датасет для дообучения. Более того, предобученная GPT-J тренировалась в том числе на данных с гитхаба, значит, должна уметь работать с кодом.

А подскажите пожалуйста, есть ли подобная модель для анализа спектра?

Для русскоязычного пользователя ценность подобного дообучения близка к нулю, потому что это всё англоязычные модели, и успешно дообучены они могут быть только на англоязычном же тексте.

Никакого русскоговорящего аналога GPT-3 Neo не существует, а Сберовская модель по качеству генерации сильно проигрывает даже англоязычным 2.7B-моделям.

И очевидно, что никакого GPT-3 Neo 6B на русском языке в ближайшие пять лет не появится, так что дообучать будет попросту нечего.

На фоне ChatGPT, которая на русском общается практически свободно, подобное дообучение просто не имеет смысла.

И это не только с генеративными моделями так. Вообще всё, что связано с обработкой естественного языка, вызывает лишь глубокое сожаление, что английский так и не стал единственным языком на планете, потому что отставание чудовищное, и с каждым годом быстро растёт. Ни инструментов нормальных, ни датасетов, ни моделей - ничего.

А как в этом плане с другими языками отличными от английского, не в курсе случайно? Просто интересно ...

Собственно это и есть основная проблема с этой моделью - она знает только английский язык. Чтобы ее обучить на русском - нужен буквально суперкомпьютер, который есть у сбера и яндекса, могли бы и обучить.
По сберовской модели - в конце марта обещали выложить чекпоинт FRED-T5, обещают очень хороший уровень русского языка (заявляли даже что лучший).

"что английский так и не стал единственным языком на планете" - ничего хорошего от этого не будет, кратковременно может быть, но вы убьете разнообразие, упростите мировую систему и "в долгую" это ничего хорошего не даст. Насколько помню, что-то подобное, про разнообразие, рассматривают в теории систем.

Не помню чья цитата, примерно так звучала "а кто вам сказал что на английском языке в принципе возможно описать эту проблему/задачу"?

Только у меня ссылки не кликабельны?

Добрый день! Ссылки в данный момент кликабельны.

ссылок то нет, просто текст.

Для меня остается туманным, как модель работающая с токенизированными данными может сказать сколько гласных букв в слове?

А зачем сети заглядывать внутрь токена (слова)? Вы же не копаетесь в своих нервных импульсах если вам спрашивают сколько импульсов вы потратили на движение ваших глаз. Вы просто не можете этого сделать, и сеть не может заглянуть внутрь токена и непосредственно посчитать в нем буквы.

Когда вы читаете слова, вы не по буквам их читаете. Вкнт вс глсн - прблм с чтнм н бдт.

Понятно в целом что я написал. Ну и к слову даже ChatGPT зачастую плохо справляется с пониманием количества букв или с задачами в стиле - напиши 20 слов на букву А (иногда некоторые слова начинаются с других букв).

Количество букв это некая абстрактная задача, с которой модель справляется опосредованно, опираясь на логику, знания о синтаксисе языка, прочтенных книгах. Вы с тем же успехом можете задать вопросы про произношение того или иного слова, и сеть вполне может вам ответить, если была обучена отвечать на эти вопросы.

Воспринимайте нейросеть как ребенка. Говорить ребенок может и использует очень сложные и длинные слова порой, но лет до 5и посчитать количество букв в словах просто не способен, что не мешает ему их использовать.

UFO just landed and posted this here

В целом, дельное замечание, но с LLaMA есть некоторые сложности. На данный момент порог вхождения выше для того, чтобы начать использовать эту модель дома. Во-первых, модель пока не представлена на HuggingFace и официально веса недоступны (да, есть неофициальные способы скачать веса). Во-вторых, квантизованная модель также не представлена, поэтому нужно квантизовать самому для чего требуются ресурсы. В-третьих, как вы и сказали, весов Stanford Alpaca готовых пока нет. GPT-J отличный бейзлайн, точка старта для тех, кто начинает работать с трансформерами. Кроме того, описанный здесь пайплан может быть применен к LLaMA.

UFO just landed and posted this here

Начальный посыл эксперимента:

Мы решили проверить технологию, на которой основан ChatGPT, посмотреть актуальное состояние open-source GPT-3-like моделей и ответить на вопрос — можно ли обучить GPT-3-like модель в домашних условиях?

Ответ простой обучить можно,
безо всяких длинных статей и экспериментов

а сам эксперимент описан про дообучение модели, и сравнение на одной самой простой задаче NLP анализа тональности, с чем справиться легко из 2019 года модель BERT*


Ответ простой, но под этим простым ответом стоят сложные и интересные концепции и личный опыт, которыми хотелось поделиться. Ничего не мешает взять текущий пайплайн и применить для генерации не одно токена (класса), а для целой последовательности. Задача классификации hatespeech была взята в качестве демонстрации.

А как с переводом на другие языки? Open AI сама делает перевод на русский, правда там непонятно, как считаются токены в русском- выяснили, что дин знак - один токен.

UFO just landed and posted this here
Sign up to leave a comment.