Picard 7 дек 2020 в 15:33

15 лучших наборов данных для обучения чат-бота

4 мин

17K

Блог компании Skillfactory Машинное обучение *Natural Language Processing *

Перевод

Чтобы быстро решать вопросы пользователей без вмешательства человека, эффективный чат-бот требует огромного количества обучающих данных. Однако основное узкое место в разработке чат-бота — это получение реалистичных, ориентированных на задачи диалоговых данных для обучения этих систем с помощью методов машинного обучения. Специально к старту нового потока курса «Машинное обучение» делюсь с вами списком лучших наборов данных разговоров из чатов, разбитых на вопросы и ответы, данные службы поддержки клиентов, диалоговые данные и мультиязычные данные.

Чтобы быстро решать вопросы пользователей без вмешательства человека, эффективный чат-бот требует огромного количества обучающих данных. Однако основное узкое место в разработке чат-бота — это получение реалистичных, ориентированных на задачи диалоговых данных для обучения этих систем с помощью методов машинного обучения.Мы составили список лучших наборов данных диалогов из чатов, разбитых на вопросы и ответы, данные службы поддержки клиентов, диалоговые и мультиязычные данные.

Набор данных вопросов и ответов для обучения чат-ботов

Ссылка. Этот корпус включает статьи Википедии, сгенерированные из них вручную фактические вопросы и сгенерированные вручную ответы на эти вопросы для использования в научных исследованиях.

Корпус WikiQA. Общедоступный набор пар вопросов и предложений, собранных и аннотированных для исследования ответов на вопросы открытого домена. Чтобы отразить истинную потребность в информации обычных пользователей, они использовали журналы запросов Bing в качестве источника вопросов. Каждый вопрос связан со страницей Википедии, на которой потенциально есть ответ.

Yahoo Language Data. На этой странице представлены отобранные вручную наборы данных по контролю качества из Yahoo Answers from Yahoo.

TREC (Text REtrieval Collection — коллекция извлечённых текстов) QA Collection: В TREC есть ответы на вопросы с 1999 года. В каждой последовательности вопросов и ответов задача определялась таким образом, чтобы системы получали небольшие фрагменты текста, содержащие ответ на вопросы открытого домена с возможными ответами только «да» или «нет».

Набор данных службы поддержки Ubuntu

Корпус диалогов Ubuntu состоит из почти миллиона бесед двух человек, извлечённых из логов чатов Ubuntu, используемых для получения технической поддержки по различным проблемам, связанным с Ubuntu. Набор содержит 930 000 диалогов и более 100 000 000 слов.

Набор о стратегии отношений при обслуживании клиентов: сбор данных по обслуживанию клиентов, связанных с поездками, из четырёх источников. Логи бесед трёх коммерческих клиентских служб IVA и форумов Авиакомпании на TripAdvisor.com в течение августа 2016 года.

Поддержка клиентов в Twitter. Этот набор данных на Kaggle включает в себя более 3 000 000 твитов и ответов от крупнейших брендов в Twitter.

Набор данных диалогов для обучения чат-ботов

Semantic Web Interest Group IRC Chat Logs. Этот автоматически генерируемый лог IRC-чата доступен в RDF, который ежедневно ведётся с 2004 года, включая временные метки и псевдонимы.

Корнелльский корпус кинодиалогов. Этот корпус содержит большую коллекцию метаданных, богатую вымышленными диалогами из сценариев фильмов: здесь найдётся 220 579 диалогов между 10 292 парами героев фильма с участием 9035 персонажей из 617 фильмов.

ConvAI2 Dataset. Этот набор данных содержит более 2000 диалогов для конкурса PersonaChat, где люди, работающие на краудсорсинговую платформу Yandex.Toloka, общались в чате с ботами от участвующих в конкурсе команд.

Санта-Барбара. Корпус разговорного американского английского: этот набор данных включает приблизительно 249 000 слов в транскрипции, аудио- и временных меток на уровне отдельных единиц интонирования.

Корпус чата NPS. Этот корпус состоит из 10 567 сообщений из приблизительно 500 000 сообщений, собранных в различных онлайн-чатах в соответствии с условиями обслуживания.

Ориентированные на цель диалоги в Maluuba. Набор данных диалогов, в которых беседа направлена на выполнение задачи или принятие решения, — например поиск авиарейсов и гостиниц. Содержит комплексную информацию, охватывающую более 250 отелей, рейсов и пунктов назначения.

Мультидоменный набор данных волшебника страны Оз (MultiWOZ). Полностью размеченная коллекция письменных бесед, охватывающая несколько доменов и тем. Набор содержит 10 000 диалогов и как минимум на порядок больше, чем все предыдущие аннотированные корпусы, которые ориентированы на решение задач.

Набор данных для обучения мультиязычных ботов

NUS Corpus. Этот корпус создан для нормализации текста из социальных сетей и его перевода. Он построен путём случайного выбора 2000 сообщений из SMS-корпуса NUS English, а затем переведён на формальный китайский язык.

Набор данных EXCITEMENT (возбуждение). Эти наборы, доступные на английском и итальянском языках, содержат отрицательные отзывы клиентов, в которых клиенты указывают причины неудовлетворенности компанией.

Всё ещё не можете найти нужные данные? Lionbridge AI предоставляет пользовательские данные для обучения чат-бота при помощи машинного обучения на 300 языках, чтобы сделать ваши беседы интерактивнее и поддерживать клиентов по всему миру. А если хотите прокачать себя в машинном обучении — приходите на наш расширенный курс по ML и не забывайте про промокод HABR, добавляющий 10% к скидке на баннере.

Eще курсы

15 лучших наборов данных для обучения чат-бота

Набор данных вопросов и ответов для обучения чат-ботов

Набор данных службы поддержки Ubuntu

Набор данных диалогов для обучения чат-ботов

Набор данных для обучения мультиязычных ботов

Рекомендуемые статьи

Публикации

Информация