veseluha 12 мар в 17:30

Пишем чат-бот для работы с PDF

7 мин

6.7K

Блог компании BotHubPython*PDFМашинное обучение*Искусственный интеллект

Туториал

+13

Комментарии 7

fobo 12 мар в 18:21

как-то в конце скомкано. "дорисуем остаток совы".

в какой момент модель понимает, что нужно черпать ответы из набора ПДФок?

если в момент подсовывания RAG модели, то какие затраты ресурсов в этот момент? хватит ли ЦПУ или обязательно видюху?

как мне потом задать этому комбайну вопрос, ответ на который точно чодержится в предоставленных ПДФках и получить ответ?

sn-dv 13 мар в 08:58

А как сделать локальную версию без интернета?

pavluntii 15 мар в 08:36

В том-то и фишка langchain, что многие его компоненты легко заменяются)
Вот документация по запуску локальной llm, а вот список всех llm интеграций

frozzzen 14 мар в 06:20

К всезнающему "ИИ" есть у меня общий вопрос. Возможна ли на современном уровне техники машинная энциклопедизация знаний? Хотя бы отраслевая, для начала. А также вменяемый патентный поиск.

И один частный вопрос. Лежит на сервере 1 миллион страниц пдф технической документации. Или миллион страниц научных работ. Возможно ли обучить LLM до такого уровня "чата", чтобы эта нежить давала мало-мальски вменяемые ответы по темам статей? Хотя бы на уровне студента-троечника с хорошей памятью?

alikhan2002 18 мар в 09:05

Здравствуйте! У меня есть датасет из 268 маленьких txt файлов, общий вес не доходит до 90 мб. Я тоже использую FAISS, но embedding OpenAI слишком медленный. Когда я тестировал с embedding-ими OpenAI показал лучший результат, в то время как другие даже близко не нашли. Как можно ускорить, или же посоветуйте другой хороший embedding?

AndrewShmig 18 мар в 20:37

rubert-tiny

sn-dv 7 апр в 22:38

Используйте NVIDIA chat with RTX - работает хорошо и быстро.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий