Статьи / Закладки / Профиль Rybolos / Хабр

Tatiana Shavrina @Rybolos

NLP, data scientist

Профиль Публикации 9Комментарии 53Закладки 25

averkij 24 апр 2023 в 12:02

Это не чат, это GigaChat. Русскоязычная ChatGPT от Сбера

Средний

14 мин

111K

Блог компании СберМашинное обучение*Искусственный интеллектNatural Language Processing*Блог компании SberDevices

Хайп вокруг нейросетей, выровненных при помощи инструкций и человеческой оценки (известных в народе под единым брендом «ChatGPT»), трудно не заметить. Люди разных профессий и возрастов дивятся примерами нейросетевых генераций, используют ChatGPT для создания контента и рассуждают на темы сознания, а также повсеместного отнимания нейросетями рабочих мест. Отдадим должное качеству продукта от OpenAI — так и подмывает использовать эту технологию по любому поводу — «напиши статью», «исправь код», «дай совет по общению с девушками».

Но как достичь или хотя бы приблизиться к подобному качеству? Что играет ключевую роль при обучении — данные, архитектура, ёмкость модели или что-то ещё? Создатели ChatGPT, к сожалению, не раскрывают деталей своих экспериментов, поэтому многочисленные исследователи нащупывают свой путь и опираются на результаты друг друга.

Мы с радостью хотим поделиться с сообществом своим опытом по созданию подобной модели, включая технические детали, а также дать возможность попробовать её, в том числе через API. Итак, «Салют, GigaChat! Как приручить дракона?»

+221

233

Dmitry_zm 19 апр 2023 в 17:41

FRED-T5. Новая SOTA модель для русского языка от SberDevices

10 мин

19K

Open source*Машинное обучение*Искусственный интеллектNatural Language Processing*Блог компании SberDevices

Уже много времени прошло с момента публикации наших последних языковых моделей ruT5, ruRoBERTa, ruGPT-3. За это время много что изменилось в NLP. Наши модели легли в основу множества русскоязычных NLP-сервисов. Многие коллеги на базе наших моделей выпустили свои доменно-адаптированные решения и поделились ими с сообществом. Надеемся, что наша новая модель поможет вам поднять метрики качества, и ее возможности вдохновят вас на создание новых интересных продуктов и сервисов.

Появление ChatGPT и, как следствие, возросший интерес к методам обучения с подкреплением обратной связью от человека (Reinforcement Learning with Human Feedback, RLHF), привели к росту потребности в эффективных архитектурах для reward-сетей. Именно от «интеллекта» и продуктопригодности reward-модели зависит то, насколько эффективно модель для инструктивной диалоговой генерации будет дообучаться, взаимодействуя с экспертами. Разрабатывая FRED-T5, мы имели в виду и эту задачу, поскольку от качества её решения будет во многом зависеть успех в конкуренции с продуктами OpenAI. Так что если ваша команда строит в гараже свой собственный ChatGPT, то, возможно, вам следует присмотреться и к FRED’у. Мы уже ранее рассказывали в общих чертах об этой модели, а сейчас, вместе с публичным релизом, настало время раскрытия некоторых технических подробностей.

Появление новых, более производительных GPU и TPU открывает возможности для использования в массовых продуктах и сервисах всё более емких моделей машинного обучения. Выбирая архитектуру своей модели, мы целились именно в ее пригодность к массовому realtime-инференсу, поскольку время выполнения и доступное оборудование — это основные факторы, лимитирующие возможность создания массовых решений на основе нейросетевых моделей. Если вы уже используете в своем решении модель ruT5, то подменив ее на FRED-T5 вы, вероятно, получите заметное улучшение значений ваших целевых метрик. Конечно, в скором будущем мы обучим еще более емкие варианты модели FRED-T5 и проверим их возможности — мы планируем и дальнейшее развитие линейки энкодер-декодерных моделей для обработки русского языка.

+39

Rybolos 21 дек 2022 в 14:10

TAPE: первый бенчмарк для few-shot оценки языковых моделей на русском языке

9 мин

3.1K

Машинное обучение*Искусственный интеллектNatural Language Processing*Блог компании SberDevices

Мы в SberDevices обучаем и оцениваем языковые модели для русского языка уже давно — так, например, за два года существования бенчмарка Russian SuperGLUE через его систему оценки прошли более 1500 сабмитов. Мы продолжаем разрабатывать инструменты для русского языка и в этой статье расскажем, как создали новый бенчмарк, который:

- опирается на оценку моделей в режимах zero-shot и few-shot;

- использует новую библиотеку RuTransform для создания состязательных атак и трансформации данных с учётом особенностей русского языка на уровне слов и предложений — библиотека может быть использована как инструмент для аугментации данных;

- позволяет проводить детальный анализ качества модели на подмножествах тестовой выборки с учётом длин примеров, категории целевого класса, а также предметной области.

+27

gra-paul 29 ноя 2022 в 18:01

Нейрофэнтези: сочиняем с ruGPT-3. Русский вариант AI Dungeon уже доступен пользователям ассистентов Салют

7 мин

6.3K

Машинное обучение*Искусственный интеллектБлог компании SberDevices

Из песочницы

Мы в SberDevices выпустили первый продукт в серии Нейроквестов — Нейрофэнтези. Квестами мы решили заняться по разным причинам. Например, в квестах можно испытать всю генеративную мощь семейства GPT-моделей. Квест также одновременно и литературный, и игровой формат взаимодействия с пользователем. В процессе игры фактически создается новая история. Среди решений на английском языке популярным стал проект AI Dungeon, мы захотели сделать нечто похожее на русском, попытавшись при этом превзойти оригинал, а также улучшить некоторые аспекты взаимодействия с пользователем. В этом посте расскажу, как мы разбирались с ходом сюжетных поворотов и с саджестами, и даже пришли к разработке инструмента для преобразования художественных текстов в обучающие данные в формате квеста.

+26

Durham 1 июл 2021 в 00:14

30 миллиардов параметров: реально ли обучить русский GPT-3 в «домашних» условиях?

17 мин

30K

Алгоритмы*Машинное обучение*Искусственный интеллектБудущее здесьNatural Language Processing*

Технотекст 2021

Не так давно Сбер, а затем и Яндекс объявили о создании сверхбольших русских языковых моделей, похожих на GPT-3. Они не только генерируют правдоподобный текст (статьи, песни, блоги и т. п.), но и решают много разнообразных задач, причем эти задачи зачастую можно ставить на русском языке без программирования и дополнительного обучения — нечто очень близкое к «универсальному» искусственному интеллекту. Но, как пишут авторы Сбера у себя в блоге, «подобные эксперименты доступны только компаниям, обладающим значительными вычислительными ресурсами». Обучение моделей с миллиардами параметров обходится в несколько десятков, а то сотен миллионов рублей. Получается, что индивидуальные разработчики и маленькие компании теперь исключены из процесса и могут теперь только использовать обученные кем-то модели. В статье я попробую оспорить этот тезис, рассказав о результатах попытки обучить модель с 30 миллиардами параметров на двух картах RTX 2080Ti.

+40

MichaelEk 23 июн 2022 в 10:59

Яндекс выложил YaLM 100B — сейчас это крупнейшая GPT-подобная нейросеть в свободном доступе. Вот как удалось её обучить

10 мин

116K

Open source*Блог компании ЯндексАлгоритмы*Машинное обучение*Natural Language Processing*

Технотекст 2022

^{Больше примеров — в конце поста}

В последние годы большие языковые модели на архитектуре трансформеров стали вершиной развития нейросетей в задачах NLP. С каждым месяцем они становятся всё больше и сложнее. Чтобы обучить подобные модели, уже сейчас требуются миллионы долларов, лучшие специалисты и годы разработки. В результате доступ к современным технологиям остался лишь у крупнейших IT-компаний. При этом у исследователей и разработчиков со всего мира есть потребность в доступе к таким решениям. Без новых исследований развитие технологий неизбежно снизит темпы. Единственный способ избежать этого — делиться с сообществом своими наработками.

Год назад мы впервые рассказали Хабру о семействе языковых моделей YaLM и их применении в Алисе и Поиске. Сегодня мы выложили в свободный доступ нашу самую большую модель YaLM на 100 млрд параметров. Она обучалась 65 дней на 1,7 ТБ текстов из интернета, книг и множества других источников с помощью 800 видеокарт A100. Модель и дополнительные материалы опубликованы на Гитхабе под лицензией Apache 2.0, которая допускает применение как в исследовательских, так и в коммерческих проектах. Сейчас это самая большая в мире GPT-подобная нейросеть в свободном доступе как для английского, так и для русского языков.

В этой статье мы поделимся не только моделью, но и нашим опытом её обучения. Может показаться, что если у вас уже есть суперкомпьютер, то с обучением больших моделей никаких проблем не возникнет. К сожалению, это заблуждение. Под катом мы расскажем о том, как смогли обучить языковую модель такого размера. Вы узнаете, как удалось добиться стабильности обучения и при этом ускорить его в два раза. Кстати, многое из того, что будет описано ниже, может быть полезно при обучении нейросетей любого размера.

Читать дальше →

+164

139

alenusch 26 мая 2022 в 10:46

Как автоматически переписать текст другими словами, сохранив смысл? Рассказываем про рерайт-сервис

8 мин

16K

Python*Машинное обучение*Искусственный интеллектNatural Language Processing*Блог компании SberDevices

Часто при работе с текстами мы хотим не только выделить главное из больших отрывков, но и переписать текст, сохранив его смысл. В предыдущем посте мы рассказали, как команда SberDevices делала AI Service суммаризатора. Сегодня давайте поговорим про наш опыт создания не просто парафразера, а именно рерайтера текста. В связке эти инструменты могут быть полезны для множества практических задач. Демо обоих сервисов доступны в маркетплейсе AI Services.

Rybolos 25 мая 2022 в 11:47

Это наконец произошло: нейросеть и человек написали книгу. Вместе! Рассказываем, как им помогали разработчики

9 мин

15K

Python*Машинное обучение*Искусственный интеллектNatural Language Processing*Блог компании SberDevices

На этой неделе в издательстве Individuum вышел сборник рассказов «Пытаясь проснуться», написанных писателем и художником Павлом Пепперштейном и генеративной нейросетью ruGPT-3, разработанной командой SberDevices.

«Пытаясь проснуться» — это первый в мире сборник рассказов, родившийся в результате сотрудничества писателя и его «двойника»-нейросети. Из 24 текстов в нём только половина принадлежит Пепперштейну — ещё дюжину сочинила генеративная нейросеть ruGPT-3, дополнительно обученная на рассказах Павла.

В этом тексте мы расскажем, как обучали Нейроличность — двойника писателя — и что теперь будет с литературой (спойлер: а всё очень даже хорошо будет!).

+24

ivansychev 15 дек 2014 в 10:02

Сбывшиеся мечты Роберта Бойля. Часть 1

5 мин

19K

История ITБиотехнологииЭнергия и элементы питанияМедгаджеты

Роберт Бойль был физиком, химиком и богословом. В 22 года он уже стал профессором. Он открыл закон Бойля-Мариотта. В этом посте речь пойдёт о нем, как о человеке, который 350 лет назад написал «список желаний» из 24 пунктов, многие из которых сбылись. Речь о «второй молодости», трансплантации органов, телемедицине, искусстве полёта и трансмутации овощей.

В посте я разобрал первые шесть пунктов «списка желаний» Бойля и описал, как они воплотились в жизнь.

Содержание списка желаний на языке оригинала 1662 года

1) The Prolongation of Life
2) The Recovery of Youth, or at least some of the Marks of It, as New Teeth, New Hair Colour’d as in Youth
3) The Art of Flying
4) The Art of Continuing Long under water and the Exercise of Functioning Freely There
5) The Cure of Wounds at a Distance
6) The Cure of Diseases at a Distance or at least by Transplantation
7) The Attaining Gigantick Dimensions
8) The Emulating of Fish without Engines by Custome and Education only
9) The Acceleration of the Production of Things out of Seed
10) The Transmutation of Metalls
11) The Making of Glass Malleable
12) The Transmutation of Species in Mineralls, Animals and Vegetables
13) The Liquid Alkaest and Other dissolving Menstruums
14) The making of Parabolicall and Hyperbolicall Glasses
15) The Making Armor Light and Extremely Hard
16) The Practicable and Certain Way of Finding Longitudes
17) The Use of Pendulums at Sea and in Journeys, and the Application of it to Watches
18) Potent Druggs to alter or Exalt Imagination, Waking, Memory, and other functions, and appease pain, procure innocent sleep, harmless dreams, etc
19) A Ship to Sail with All Winds and a Ship Not to be Sunk
20) Freedom from necessity for much sleeping exemplify’d by the Operations of Tea and What Happens in Mad-Men
21) Pleasing Dreams and Physicall Exercises by the Egyptian Electuary and by the Fungus mentioned by the French author
22) Great Strength and Agility of Body Exemplify’d by That of Frantick Epileptick and Hystericall Persons
23) Varnishes Perfumable by Rubbing
24) A Perpetuall Light

Читать дальше →

+34

Rybolos 21 апр 2022 в 13:48

Модель-полиглот: как мы учили GPT-3 на 61 языке мира

10 мин

Open source*Машинное обучение*Искусственный интеллектNatural Language Processing*Блог компании SberDevices

Генеративные языковые модели уверенно обосновались в практике Natural Language Processing (NLP). Большие предобученные трансформеры двигаются сразу в трёх направлениях: мультимодальность, мультизадачность и мультиязычность. Сегодня мы расскажем про последнюю — о том, как учили модель на основе GPT-3 на 61 языке мира.

Это — самая многоязычная авторегрессионная модель на сегодня. Такую модель можно использовать, например, чтобы создать вопросно-ответную систему, обрабатывающую тексты на многих языках, научить диалогового ассистента говорить на разных языках, а также сделать более универсальные решения для парсинга текста, извлечения информации.

Этим релизом мы хотим привлечь внимание к развитию NLP для языков стран СНГ, а также народов России. Для многих из представленных языков эта модель стала первой авторегрессионной языковой моделью.

Модель доступна в двух вариантах размеров: mGPT XL на 1,3 миллиарда параметров — в открытом доступе, а mGPT 13B — будет доступна в ML Space SberCloud.

+27

inkoziev 14 апр 2022 в 12:07

Как генерировать стихи с помощью силлабо-тонической трансформенной языковой модели (часть первая)

8 мин

9.2K

Машинное обучение*Искусственный интеллектNatural Language Processing*Блог компании SberDevices

Всем привет! Меня зовут Илья Козиев, я работаю в Управлении экспериментальных систем машинного обучения SberDevices над вопросами генерации текстового контента. В этой статье я хочу представить эффективный способ решения такой интересной задачи, как генерация стихов, с помощью одной из самых современных нейросетевых архитектур — GPT-3. Я подробно распишу все необходимые шаги на пути к получению стихов примерно вот такого уровня:

Я оставляю брошенные фразы
Иного смеха, слабости и слёз
Я превращаюсь в голубые стразы
Кружась ветвями молодых берёз

+27

konodyuk 17 дек 2021 в 10:00

Управляем генерацией ruGPT-3: библиотека ruPrompts

7 мин

12K

Python*Машинное обучение*Искусственный интеллектNatural Language Processing*Блог компании SberDevices

Наше семейство моделей ruGPT-3 уже нашло множество применений у сообщества: кто-то генерирует гороскопы, кто-то — факты о лягушках, статьи нейроуголовного кодекса, нейроновости и прочее. Модели накопили в себе массу знаний о нашем мире и способны подстроиться практически под любую задачу. Тем не менее, в данный момент подобная подгонка (fine-tuning) часто требует значительных вычислительных затрат, что не всегда позволяет использовать достаточно большие модели. В этом посте мы предлагаем сообществу новый инструмент для того, чтобы дообучать ruGPT-3 под свои нужды и делиться своими результатами с другими.

+22

king_menin 24 июн 2021 в 12:50

ruCLIP — мультимодальная модель для русского языка

5 мин

14K

Обработка изображений*Машинное обучение*Искусственный интеллектNatural Language Processing*Блог компании SberDevices

Известно, что глубокие нейронные сети (DNN) и модели компьютерного зрения, в частности, хорошо справляются с конкретными задачами, но зачастую не могут сделать обобщение при работе с новыми. Так, модель, которая хорошо работает с данными о продуктах питания, может показать себя не очень хорошо на спутниковых изображениях и т. д..

В начале этого года OpenAI опубликовала модель под названием CLIP (Contrastive Language–Image Pre-training). В статье авторы модели привели потрясающие результаты по точности zero-shot-классификации изображений, а также сопоставили тексты и картинки в рамках одной системы. Однако модель OpenAI работает только с английским языком. Можно ли быстро адаптировать её для работы с русским?

Команды R&D SberDevices и Sber AI увлеклись этим вопросом. В этой статье мы расскажем про первые результаты наших исследований CLIP для русского языка, опишем ключевые идеи предложенной модели и поделимся с вами кодом для её использования — решения задач zero-shot image classification.

Что же можно сделать с помощью ruCLIP?

+29

Christina29 9 апр 2021 в 10:18

Как машины учатся эмоциональному поведению

14 мин

Машинное обучение*Научно-популярноеИскусственный интеллектБлог компании SberDevices

Нередко при взаимодействии с техникой люди проявляют эмоции: мы можем злиться на сломавшийся банкомат или умиляться пронырливости робота-пылесоса. Да, мы общаемся с роботами, но не стоит оценивать это общение как одностороннее: в логику аватаров, которые компании используют для взаимодействия с пользователем, часто бывает встроен навык понимания эмоций, и даже их проявления. Обычно это нужно, чтобы сделать общение приятным для клиента. Как же это всё работает?

Часто сюжеты фильмов и книг о роботах вращаются вокруг темы эмоций. «Добрые» роботы учатся у людей любви и самопожертвованию, а «злые» оказываются повержены из-за неспособности любить, жертвовать собой, предугадывать «иррациональные» поступки людей. Так, робот Вертер из фильма «Гостья из будущего» мучается из-за любви к Полине, а Электроник из одноименных «Приключений» в разные моменты фильма плачет, улыбается и смеётся, и в итоге именно это делает его человеком.

Смогут ли машины в самом деле испытывать эмоции? Ответить на этот вопрос будет трудно, покуда нам непонятна физиологическая составляющая эмоций. Если смотреть на эмоции широко, даже в поведении примитивных организмов наблюдаются явления, которые можно интерпретировать как эмоции. Например, у некоторых моллюсков в результате обучения формируются условные рефлексы, которые заставляют их избегать определённых стимулов. А что это, как не страх? Но оставим философствования философам, а современным учёным и разработчикам — практические исследования. По данным последних, с уверенностью можно сказать, что машины можно научить распознавать эмоции и их симулировать.

Читать дальше →

Rybolos 1 апр 2021 в 14:22

Всё, что нам нужно — это генерация

10 мин

28K

Блог компании СберМашинное обучение*Искусственный интеллектNatural Language Processing*Блог компании SberDevices

Туториал

Применяем ruGPT-3 в популярных задачах и показываем, зачем языковым моделям триллион параметров

С наступлением 2021 в NLP продолжается гонка «больше — лучше», захватывая новые архитектуры. Пальма первенства самой большой языковой модели в 2020 году принадлежала GPT-3 от OpenAI с 175 миллиардами параметров — но недолго. Модель GShard с помощью Mixture-of-Experts повысила планку до 600 миллиардов параметров, а затем и Google Brain заявил о разработке архитектуры Switch Transformer с 1,6 триллионами параметров (и тоже является MoE). Насколько повышение результатов за счет объема полезно для индустрии? Тот же Switch Transformer с его триллионом параметров далеко не на 1 месте в лидербордах.

Огромные языковые модели (Enormous Language Models, теперь это термин, им посвящен отдельный воркшоп конференции ICLR 2021) показывают действительно интересные результаты — не только в традиционных задачах ML, но и в новых сферах применения: генерации всего того, что раньше генерировать без ошибок было нельзя — музыку, изображения попиксельно, программный код и т.д. Из всех традиционных форм NLP-задач — классификация, классификация элементов последовательности, seq2seq, — по сути, у нас остается только одна: seq2seq. С приходом больших языковых моделей все задачи NLP сводятся теперь к форме генерации, при должном качестве этой самой генерации.

Seq2seq — самая «человеческая» форма решения задач: человек использует тот же формат, отвечая на сообщения в чате, общаясь устно, сортируя имейлы в почте.

Лично нам в SberDevices не терпелось поскорее применить такой формат к различным задачам — поэтому мы открываем доступ к самой большой русскоязычной нейросети ruGPT-3 XL с 1,3 млрд параметров.

Инженерный запал вылился в кропотливую работу по распараллеливанию обучения, очистке данных и тестированию. Но зато… теперь в open-source модель ruGPT-3 XL с 1,3 млрд параметров!

А также ее публичное API:

Читать дальше →

+21

Rybolos 20 ноя 2020 в 13:14

Тестируем ruGPT-3 на новых задачах

9 мин

49K

Блог компании СберМашинное обучение*Искусственный интеллектNatural Language Processing*Блог компании SberDevices

Туториал

Технотекст 2021

Сбер выложил русскоязычную модель GPT-3 Large с 760 миллионами параметров в открытый доступ

10 мин

172K

Блог компании СберМашинное обучение*Искусственный интеллектNatural Language Processing*Блог компании SberDevices

Последнее десятилетие в области компьютерных технологий ознаменовалось началом новой «весны искусственного интеллекта». Впрочем, ситуацию в индустрии в наши дни можно, наверное, охарактеризовать уже не как весну, а полноценное «лето ИИ». Судите сами, за последние неполные 10 лет только в области обработки естественного языка (Natural language processing, NLP) произошли уже две настоящие технологические революции. Появившаяся в результате второй из них модель GPT-3 произвела настоящий фурор не только в технологических медиа, но стала знаменитой далеко за пределами научного сообщества. Например, GPT-3 написала для издания «The Guardian» эссе о том, почему ИИ не угрожает людям. GPT-3 сочиняет стихи и прозу, выполняет переводы, ведёт диалоги, даёт ответы на вопросы, хотя никогда специально не училась выполнять эти задачи. До недавних пор все возможности GPT-3 могли по достоинству оценить лишь англоязычные пользователи. Мы в Сбере решили исправить эту досадную оплошность. И сейчас расскажем вам, что из этого получилось.

Источник изображения

Читать дальше →

+155

241

oksmoron 23 июн 2020 в 13:28

Почему меня разочаровали результаты Kaggle ARC Challenge

7 мин

7.1K

Алгоритмы*Блог компании СберBig Data*Машинное обучение*Искусственный интеллект

Три недели назад на каггле прошло первое в истории платформы соревнование по «сильному» ИИ – Abstraction and Reasoning Challenge. Чтобы проверить способность моделей к обобщению и решению абстрактных задач, все участники суммарно решили только чуть менее половины задач. Решение-победитель справляется приблизительно с 20% из них — и то девятичасовым перебором вручную захардкоженных правил (ограничение в девять часов установили организаторы).

В посте я хочу напомнить о сложностях работы с AGI, рассказать о самых интересных идеях участников, топовых решениях и поделиться мнением, что не так с текущими попытками создать AGI.

Кто-то с ужасом, а кто-то с нетерпением ждет ИИ как в произведениях фантастов. С личностью, эмоциями, энциклопедическими знаниями и главное – с интеллектом, то есть способностями к логическим выводам, оперированию абстрактными понятиями, выделению закономерностей в окружающем мире и превращению их в правила. Как мы знаем, именно такой ИИ теоретики называют «сильным» или ещё AGI. Пока это далеко не мейнстримное направление в машинном обучении, но руководители многих больших компаний уже считают, что сложность их бизнеса превысила когнитивные способности менеджеров и без «настоящего ИИ» двигаться вперёд станет невозможно. Идут дискуссии, что же это такое, каким он должен быть, как сделать тест чтобы уж точно понять, что перед нами AGI, а не очередной blackbox, который лучше человека решает локальную задачу – например, распознавание лица на фотографии.

Читать дальше →

+29

mashkka_t 18 июн 2020 в 16:43

Event2Mind для русского языка. Как мы обучили модель читать между строк и понимать намерения собеседника

9 мин

Python*Блог компании СберМашинное обучение*Искусственный интеллектNatural Language Processing*

Умение модели распознавать намерения собеседника, то есть понимать зачем человек совершил то или иное действие, применимо в большом числе прикладных NLP-задач. К примеру, чат-ботам, голосовым помощникам и другим диалоговые системам это позволит эмоционально реагировать на высказывания собеседника, проявлять понимание, сочувствие и другие эмоции. Кроме того, задача распознавания намерения – это еще один шаг на пути к пониманию человеческой речи (human understanding).

Уже было предпринято несколько попыток решить данную задачу в той или иной форме. Например, на NLP-progress публикуются последние достижения в области commonsense reasoning. Слабость большинства существующих моделей заключается в том, что в их основе лежит supervised подход, то есть им требуются большие размеченные датасеты для обучения. А в силу специфичности задачи разметка часто бывает весьма нестандартной и достаточно сложной.

Для английского существует ряд корпусов и benchmark’ов, а вот для русского языка ситуация с данными намного печальнее. Отсутствие размеченных данных для русского часто является одним из основных препятствий, которое мешает русифицировать работающие английские модели.

В этом посте мы расскажем, как мы создали датасет для задачи Common Sense Reasoning в одной из ее возможных формулировок, предложенной в статье event2mind, а также адаптировали английскую модель event2mind от AllenNLP для русского языка.

Читать дальше →

+14

Rybolos 10 июн 2020 в 12:00

Люди ломаются на логике, роботы — на всем понемногу. Экзамены по русскому для NLP-моделей

9 мин

9.4K

Блог компании СберМашинное обучение*Управление проектами*Искусственный интеллектNatural Language Processing*

Чтобы машины могли обрабатывать текст на русском и «понимать» его, в NLP используются универсальные языковые модели и трансформеры — BERT, RoBERTa, XLNet и другие — архитектуры от 100 миллионов параметров, обученные на миллиардах слов. Все оригинальные модели появляются обычно для английского, показывают state-of-the-art в какой-нибудь прикладной задаче и только спустя полгода-год появляются и для русского языка, без тюнинга архитектуры.

Чтобы корректнее обучать свою модель для русского или другого языка и адаптировать её, хорошо бы иметь какие-то объективные метрики. Их существует не так много, а для нашей локали и вовсе не было. Но мы их сделали, чтобы продолжить развитие русских моделей для общей задачи General Language Understanding.

Мы — это команда AGI NLP Сбербанка, лаборатория Noah’s Ark Huawei и факультет компьютерных наук ВШЭ. Проект Russian SuperGLUE — это набор тестов на «понимание» текста и постоянный лидерборд трансформеров для русского языка.

Читать дальше →

+37

Это не чат, это GigaChat. Русскоязычная ChatGPT от Сбера

FRED-T5. Новая SOTA модель для русского языка от SberDevices

TAPE: первый бенчмарк для few-shot оценки языковых моделей на русском языке

Нейрофэнтези: сочиняем с ruGPT-3. Русский вариант AI Dungeon уже доступен пользователям ассистентов Салют

30 миллиардов параметров: реально ли обучить русский GPT-3 в «домашних» условиях?

Яндекс выложил YaLM 100B — сейчас это крупнейшая GPT-подобная нейросеть в свободном доступе. Вот как удалось её обучить

Как автоматически переписать текст другими словами, сохранив смысл? Рассказываем про рерайт-сервис

Это наконец произошло: нейросеть и человек написали книгу. Вместе! Рассказываем, как им помогали разработчики

Сбывшиеся мечты Роберта Бойля. Часть 1

Модель-полиглот: как мы учили GPT-3 на 61 языке мира

Как генерировать стихи с помощью силлабо-тонической трансформенной языковой модели (часть первая)

Управляем генерацией ruGPT-3: библиотека ruPrompts

ruCLIP — мультимодальная модель для русского языка

Как машины учатся эмоциональному поведению

Всё, что нам нужно — это генерация

Применяем ruGPT-3 в популярных задачах и показываем, зачем языковым моделям триллион параметров

Тестируем ruGPT-3 на новых задачах

Рекомендательные системы с нуля, чат-боты и многое другое

Сбер выложил русскоязычную модель GPT-3 Large с 760 миллионами параметров в открытый доступ

Почему меня разочаровали результаты Kaggle ARC Challenge

Event2Mind для русского языка. Как мы обучили модель читать между строк и понимать намерения собеседника

Люди ломаются на логике, роботы — на всем понемногу. Экзамены по русскому для NLP-моделей

Информация