Natural Language Processing *

Компьютерный анализ и синтез естественных языков

Статьи Посты Новости Авторы Компании

alizar 28 июл 2023 в 12:43

В каких задачах оглупел ChatGPT и как это исправить

10 мин

21K

Машинное обучение*Научно-популярноеИскусственный интеллектБудущее здесьNatural Language Processing*

Объяснение GPT 3.5 и 4.0, почему женщины лучше мужчин, в марте и июне 2023 года, источник

В относительно короткой истории программного обеспечения немало примеров, когда разработчикам удавалось настолько ухудшить продукты, что теми переставали пользоваться. Например, Windows ME (2000) или RealPlayer. Возможно, сейчас на эти старые «грабли» наступила и компания OpenAi. В результате последних обновлений ChatGPT-4 стал работать объективно хуже, что подтверждается не только жалобами на Reddit, но и результатами научного исследования специалистов из Стэнфордского университета в Беркли. Одновременно с этим вышли новые версии альтернативных LLM, такие как FreeWilli2 (первая нейросеть, которая побила GPT 3.5 в отдельных бенчмарках) на базе LLaMA 2. О разработке аналогичной модели объявила Apple и другие компании.

Проблему отупения ChatGPT можно обойти, если переключиться на более ранние версии этой модели. Но не факт, что это поможет самой компании OpenAI, ведь в июне 2023 года количество пользователей ChatGPT уже снизилось (впервые с момента выпуска этого продукта).

Читать дальше →

+14

ervin-x 25 июл 2023 в 10:01

Большие языковые модели: вносим порядок в семейный балаган

21 мин

7.2K

Блог компании ГК ЛАНИТМатематика*Машинное обучение*Искусственный интеллектNatural Language Processing*

Туториал

Часто в прикладных задачах NLU при создании эмбеддингов приходится использовать уже обученные модели. Но что если вы работаете со специфичными или нестандартными текстами? Какие модели для создания эмбеддингов выбрать и где их взять, а может быть лучше обучить их на своих данных? О том, какую модель из растущего семейства больших языковых моделей выбрать, как их обучать, а также немного о кейсах применения нашумевшей ChatGPT разбираемся в блоге ЛАНИТ под катом.

+37

averkij 20 июл 2023 в 11:02

Сбер открывает доступ к нейросетевой модели ruGPT-3.5

Простой

3 мин

43K

Блог компании СберБлог компании SberDevicesOpen source*Искусственный интеллектNatural Language Processing*

👉 Upd. Добавили пример запуска в Colab'е.

Друзья, свершилось. Сегодня мы рады сообщить вам о релизе в открытый доступ нейросетевой модели, которая лежит в основе сервиса GigaChat.

Про то, что такое GigaChat и как мы его обучаем, вы можете прочитать в нашей предыдущей статье. Скажу лишь, что главной его частью, ядром, порождающим креативный ответ на ваш запрос, является языковая модель обученная на огромном количестве разнообразных текстов — сотен тысяч книг, статей, программного кода и т.д. Эта часть (pretrain) затем дообучается на инструкциях, чтобы лучше соответствовать заданной форме ответа. Обучение такого претрейна занимает около 99% от всего цикла обучения и требует значительного количества ресурсов, которыми обычно обладают только крупные компании.

Этот претрейн, названный ruGPT-3.5, мы выкладываем на Hugging Face под лицензией MIT, которая является открытой и позволяет использовать модель в коммерческих целях. Поговорим о модели подробнее.

+95

100

agpankova 17 июл 2023 в 15:11

Эволюция метрик качества машинного перевода. Часть 2

Простой

5 мин

3.1K

Машинное обучение*Natural Language Processing*

Обзор

Как правильнее всего измерять качество машинного перевода? Многие слышали о BLEU, но на самом деле метрик много. В этой статье расскажем, какие существуют метрики, как они эволюционировали и какие сегодня наиболее адекватны. Часть 2: референсные нейросетевые метрики.

Viroslav_Venskii 15 июл 2023 в 09:01

Нейронные сети врываются в медицину

Средний

12 мин

9.7K

Big Data*Машинное обучение*Искусственный интеллектТелемедицинаNatural Language Processing*

Из песочницы

Доброго времени суток habr, на связи Николай Иванов, студент-магистр 1 курса Сколтеха факультета Data Science. С почином, так как это моя первая, и, надеюсь, не последняя статья на habr. С того момента как я познакомился с областью Deep Learning прошло уже около двух лет. С самого начала мне была интересна область обработки естественного языка (Natural Laguage Processing, NLP), о некоторых задачах которой и результатах я попробую рассказать в этой статье. В мае 2023 года начался мой путь в Sber AI Lab в замечательном центре медицины. Мой рассказ будет в какой-то степени сравнением того что было сделано до меня и того, какие идеи мы развили, что получилось, а что не получилось. Хочу сослаться на замечательную статью Даниила (https://habr.com/ru/articles/711700/), который использовал модель RuBioBERTa для задач из MedBench. Я же буду использовать другое решение, посмотрим, чем оно лучше, чем хуже и вообще насколько подходит для NLP-задач в медицине.

Немного оффтопа

Я очень рад, что каждый месяц появляются новые, более сложные и интересные архитектуры, реализующие смелые идеи, которые двигают вперёд области Deep Learning, NLP и Computer Vision (CV), но сколько из них реально используются в прикладных задачах? Вот оценка внедрения AI решений по странам (на основании отчёта IBM Global AI Adoption Index 2022):

+14

ddimitrov 12 июл 2023 в 15:14

Kandinsky 2.2 — новый шаг в направлении фотореализма

Средний

7 мин

51K

Блог компании СберБлог компании SberDevicesОбработка изображений*Машинное обучение*Natural Language Processing*

Обзор

2023 год можно смело называть годом бурного развития генеративного искусственного интеллекта. Это касается не только привычной нам модальности изображений (Kandinsky 2.1, Stable Diffusion XL, IF, Шедеврум и др.), но и текстовой (ChatGPT, LLaMA, Falcon и др.), и даже модальности видео (GEN-2, CogVideo и др.). При этом ни в одном из направлений выделить объективного лидера почти невозможно — все команды стараются равномерно двигаться вперёд и повышать качество синтеза. Текстовые чат‑боты научились взаимодействовать с внешними системами посредством плагинов, синтез изображений вышел на уровень фотореалистичных генераций, длина генерируемых видео постепенно увеличивается с сохранением сюжетной связности между кадрами. И такой прогресс обусловлен уже не только наращиванием вычислительных мощностей, но и большим числом неординарных архитектурных решений, которые позволяют добиваться лучшего качества.

С момента выхода Kandinsky 2.1 (4 апреля 2023 года) прошло чуть больше трёх месяцев, и вот сегодня мы анонсируем новую версию модели в линейке 2.X. И если архитектурно модель не претерпела кардинальных изменений, то в части расширения функционала получила существенное развитие. В первую очередь, мы сделали упор на повышение качества генераций и их разрешении, а также новых возможностях синтеза изображений.

+65

168

aarmaageedoon 10 июл 2023 в 13:49

Как использовать метод Дэвида-Скина для агрегации разметки. Разбираем по шагам

Средний

9 мин

1.9K

Блог компании МТСБлог компании MTS AIМашинное обучение*Natural Language Processing*

Обзор

Всем привет. Открываю серию статей, посвященную агрегации разметки. Этим вопросом я активно занимался, пока работал в нашем центре компетенций по работе с данными: нам нужен был механизм агрегации разметки из разных задач. По пути накопил материалов и, причесав, делюсь с вами.

В этой части я расскажу про модель Дэвида-Скина, которая заложила основы для многих методов агрегации разметки и является второй по значимости после голосования большинством. Многие создатели проектов следуют этому методу для повышения качества данных. Изначально он был разработан в 1970-х для вероятностного моделирования медицинских обследований. Именно поэтому разберем этот метод на примере с докторами.

agpankova 3 июл 2023 в 20:29

Эволюция метрик качества машинного перевода — Часть 1

Простой

5 мин

Машинное обучение*Natural Language Processing*

Обзор

Как правильнее всего измерять качество машинного перевода? Многие слышали о BLEU, но на самом деле метрик много. В этой статье расскажем, какие существуют метрики, как они эволюционировали и какие сегодня наиболее адекватны. Часть 1: эволюция метрик и обзор традиционных метрик.

AnatolyBelov 2 июл 2023 в 08:32

RuGPT3. Исследование вариантов циклическим перебором

7 мин

2.7K

Машинное обучение*Искусственный интеллектNatural Language Processing*

RuGPT3 - коллекция моделей от Сбер

Проводим автоматическое тестирование циклическим перебором вариантов.

Работаем в Colab, тестируем Small, Mediub, Large.

Параметры генерации совершенно неоптимизированы - это первый заход, чтобы посмотреть исходную ситуацию и сравнивать по мере улучшения.

Алгоритм тестирования
полный последовательный перебор

10 вопросов
3 модели: Small, Medium, Large
Несколько наборов параметров внутри каждой модели
Реплики сохраняем в гугл-таблице

cointegrated 30 июн 2023 в 10:12

Фильтруй базар! Как мы параллельный русско-башкирский корпус чистили

Сложный

6 мин

2.9K

Python*Семантика*Data Mining*Машинное обучение*Natural Language Processing*

Чтобы обучать нейросети понимать и генерировать человеческие языки, нужно много качественных текстов на нужных языках. «Много» – не проблема в эпоху интернета, но с качеством бывают сложности. В этом посте я предлагаю использовать BERT-подобные модели для двух задач улучшения качества обучающих текстов: исправление ошибок распознавания текста из сканов и фильтрация параллельного корпуса предложений. Я испробовал их на башкирском, но и для других языков эти рецепты могут оказаться полезны.

+17

MountainGoat 18 июн 2023 в 13:22

Как поговорить с компьютером, если у вас не поехала крыша

Простой

6 мин

11K

Open source*Машинное обучение*Natural Language Processing*

Из песочницы

Сейчас расскажу, как установить говорящего на английском ИИ локально и как попользоваться им в режиме прямого доступа. Понадобится компьютер средней паршивости, типа 16Гб памяти, проц на 8 ядер, а видюха любая и даже без.

+24

NewTechAudit 16 июн 2023 в 09:56

DeepPavlov «из коробки» для задачи NLP на Python

Простой

5 мин

4.6K

Python*Искусственный интеллектNatural Language Processing*

Кейс

✏️ Технотекст 2023

Привет, Хабр!

Сегодня с вами участник профессионального сообщества NTA Пётр Гончаров.

В этом посте я разобрал последовательность действий, выполненных при решении задачи автоматизированного анализа текстовой информации в публикациях на Хабре для составления отчётов: парсинга сайта и использования «из коробки» инструментов библиотеки DeepPavlov для поиска ответов на вопросы в заданном контексте.

Погрузиться глубже

Sanek22 14 июн 2023 в 14:21

Смысловая капча. Применение семантического анализатора Real AI для реализации капчи

Простой

5 мин

1.1K

Блог компании Риал АИ ТехнологииИнформационная безопасность*Веб-разработка*Искусственный интеллектNatural Language Processing*

Кейс

В данной статье рассказываем о новом демо-примере по работе со смыслом текста, с использованием нашей технологии Real AI – капче, требующей понимания смысла текста.

Чтобы успешно решить капчу необходимо понять полученную фразу и из представленных изображений выбрать указанные во фразе объекты. Наиболее интересной деталью этого сценария является то, что правильный ответ заранее нигде не хранится и Real AI выполняет проверку капчи используя все те же данные, что есть у пользователя.

Yachayai 13 июн 2023 в 12:13

Геолоцировать пользователя по Tweet-у: машинное обучение, часть I

4 мин

1.4K

Геоинформационные сервисы*Машинное обучение*Искусственный интеллектNatural Language Processing*

Из песочницы

Модели машинного обучения давно тренируются на постах в соцсетях. Самые большие текстовые корпусы созданы на основе Твиттера — они обогащают тысячи компаний сервисами, а библиотеки — академическими статьями.

Самое интересное из всего этого спрятано за проблемами объемов данных, опечатками и жаргонизмами, кластеризацией и выбором наиболее подходящих покемонов (Large Language Models, в смысле). Под самым интересным я подразумеваю задачу определения местоположения пользователя по тексту. Каждый — от финансовых регуляторов до независимых журналистов — хочет залезть в Твиттер какого-нибудь мошенника и определить, где он прячется.

Если есть спрос, появится и предложение. Эта серия постов будет посвящена креативным решениям по изменениям подходов, описанных в паре десятков научных статей. Мы начнем с маленьких изменений в датасетах, будем тестить разные алгоритмы фильтрации и кластеризации, языковые модели и надстройки. Расскажем, как учили модели определять отличия между «Я живу в Нью-Йорке» и «Нью-Йорк — лучший город на планете».

AlanRobotics 9 июн 2023 в 12:25

AIsaacChat: ИИ чатбот на основе ruT5

5 мин

2.4K

Разработка под iOS*Машинное обучение*Искусственный интеллектNatural Language Processing*Flask*

Из песочницы

AIsaacChat — это мобильное приложение, которое может общаться, выполнять простые текстовые инструкции и генерировать картинки.

2023 год стал годом нового бума обработки естественного языка. В магазинах мобильных приложений можно найти огромное количество продуктов с ИИ. В основном под капотом подобные приложения обращаются к API компании OpenAI (chatGPT), и с технической точки зрения реализовать это довольно несложно. Идея создания AIsaacChat была в том, чтобы оно обращалось с языковой модели, которую мы дообучим с помощью своих ресурсов.

Второй причиной создания стала идея объединить в одном приложении генерацию картинок и текста. Очевидно, что таких приложений много, разница состоит в том, что AIsaac может понимать ваши намерения. Что это означает для пользователя? Вы можете задавать Айзеку команды в произвольной форме (“можешь резко нарисовать дом в стиле Ван Гога”), и он поймет, что именно вы от него хотите: сгенерировать текст или картинку.

NewTechAudit 7 июн 2023 в 08:32

Заставляем трансформеров отвечать на вопросы

Средний

10 мин

4.3K

Python*Программирование*Машинное обучение*Natural Language Processing*

Кейс

Привет, Хабр!

Меня зовут Владислав Малеев, я участник профессионального сообщества NTA.

Интеллектуальные системы призваны облегчать жизнь человека, выполняя за него рутинные задачи. Одной из таких задач является поиск информации в большом количестве текста. Возможно ли и эту задачу перенести на плечи интеллектуальных систем? Этим вопросом я решил задаться.

Что ответили трансформеры

TyVik 2 июн 2023 в 10:15

Что делает ChatGPT… и почему это работает?

Средний

75 мин

146K

Алгоритмы*Машинное обучение*Искусственный интеллектNatural Language Processing*

Перевод

То, что ChatGPT может автоматически генерировать что-то, что хотя бы на первый взгляд похоже на написанный человеком текст, удивительно и неожиданно. Но как он это делает? И почему это работает? Цель этой статьи - дать приблизительное описание того, что происходит внутри ChatGPT, а затем исследовать, почему он может так хорошо справляться с созданием более-менее осмысленного текста. С самого начала я должен сказать, что собираюсь сосредоточиться на общей картине происходящего, и хотя я упомяну некоторые инженерные детали, но не буду глубоко в них вникать. (Примеры в статье применимы как к другим современным "большим языковым моделям" (LLM), так и к ChatGPT).

+248

121

cupraer 1 июн 2023 в 16:27

Продолжая писать в то самое время, когда технологии поломали все социальные договоренности в сети

Простой

7 мин

4.9K

Искусственный интеллектБудущее здесьNatural Language Processing*

Мнение

Перевод

Я тяжело переживаю по поводу того, куда нас завела эта дорожка, и стараюсь по мере сил бороться с этими переживаниями. Я постоянно думаю о том, какое место я занимаю в отрасли, которая, похоже, больше не заботится о том, что она производит. Стало очевидно, что индустрии программного обеспечения попросту наплевать на программное обеспечение.

+14

mr-pickles 29 мая 2023 в 11:11

Идеальный препроцессинговый пайплайн для NLP-моделей

Средний

12 мин

4.4K

Программирование*Алгоритмы*Машинное обучение*Natural Language Processing*

Туториал

Перевод

Если вы работали над проектом по реферированию текстов, то вы могли заметить сложность получения тех результатов, которые ожидалось получить. Если у вас имелись представления относительно того, как должен работать некий алгоритм, какие предложения он должен выделять при формировании рефератов, то этот алгоритм, чаще всего, выдавал результаты, весьма далёкие от ваших представлений. А ещё интереснее — ситуация с извлечением из текстов ключевых слов. Дело в том, что существует множество самых разных алгоритмов — от тех, что используют тематическое моделирование, до тех, где применяется векторизация данных и эмбеддинги. Все они работают очень хорошо. Но если дать одному из них абзац текста, то выданный им результат, опять же, будет далеко не самым правильным. А дело тут в том, что слова, которые встречаются в тексте чаще всего — это не всегда самые важные слова.

+11