GPT или GigaChat — ответит RAGAS / Комментарии / Хабр

Йо! Такие тесты тестируют только представления автора тестов. Большинство пользователей оценивают чат-ботов по применимости на практике. Это не настолько простые тесты как про солнышко. НО - "Верным курсом идете, товарищи..."

А еще бы кто протестировал все те псевдочаты, которые выдает поисковик по запросу ЖПТ - бота...

DmitryOlkhovoi 16 фев в 16:26

Китайская комната, все это условно ерунда и никакой ИИ

mechkladenets 15 фев в 22:40

У нас как разработчиков часто спрашивают доказательства, что наш подход к RAG с помощью построения графа структуры текста лучше наивного RAG с разбиением на чанки.

В связи с этим просят бенчмарк - знаете ли вы датасет на русском для RAG, на котором можно было бы адекватно сравнить качество retrieval augmented generation систем, такой, чтобы в нем был баланс тематик по топикам и сложности (новости и конструкторская документация это разные по сложности тексты), типов вопросов, длин контекстов, типов ответов (инструкции, научные ответы, консультации и тп), ответов по типу разрозненности: ответ собирается из разных частей документа (а не находится в в одном абзаце), темпоральные (по времени происходящих событий), по жаргонности(юзеры задают вопрос а жаргоном, а система должна иметь векторный движок понимающий жаргон) ?

Mark_K 15 фев в 23:17

К сожалению нет, но собрать такое было бы очень полезно для сообщества

mechkladenets 17 фев в 01:31

Да я б рад, но это месяц работы)

HDDimon 16 фев в 23:53

А можешь дать ссылки на статьи по теме получения структуры текста применительно к задаче RAG? Можно и без если таких нет.

mechkladenets 17 фев в 01:30

Есть наша работа в FractalGPT, есть статья на Хабре про Алгоритм фрактального синтеза - описано концептуально, без кода и важных деталей. В основном крутость этого подхода в том, что он универсален и скейлится как по тематикам, так и по сложности текста. Как следствие - в отличие от других подходов нарезки на чанки, поиска релевантных заголовков, реранкеров релевантных чанков и тп у нас подход не требует сильной кастомизации под конкретную доменную область, а в других подходах это нужно делать и возникает проблема типа "проклятия размерности" - есть 10 настроек у каждой 15 параметров, и есть 50 типов бизнеса и вам надо подобрать оптимальные настройки под каждый бизнес - типы вопросов, длина и структура ответов, что делать если юзер неполный вопрос задает и тп - комбинаторно придется перебирать сотни комбинаций и донастраивать векторный поиск.

Есть вот такой обзор:
Retrieval-Augmented Generation for Large Language Models: A Survey
https://arxiv.org/abs/2312.10997v1

Например, в курсе https://www.deeplearning.ai/short-courses/building-evaluating-advanced-rag/ сооснователь Ламаиндекс - Jerry Liu Co-founder and CEO of LlamaIndex рассказывает про метод Auto-merging_Retrieval - который и является наивным, эвристическим подходом к проблеме разрозненной нарезки на чанки.
Собственно ауто-мерджинг это сборка маленьких чанков в большие с иерархией - ведь это и есть граф связей между ними. Это в их курсе в видео будет на 4й минуте: leaf node, intermidiate node, parent node

Это подход мы например попробовали одним из первых еще год назад(их курс новый), и потом докрутили. Очевидно, что описанный ими подход многократно можно улучшать, добавляя больше связей, более глубоких, сложных по структуре, что конечно же даст более высокое качество ответа и более гибкий реранкер - а значит под конечный бизнес легче заточить.

GPT или GigaChat — ответит RAGAS

Комментарии 7

Публикации

Истории