Как стать автором
Обновить
124
26.3
Январев Владислав @janvarev

Когнитивист, предприниматель, Senior Python dev

Отправить сообщение

Тупо ждем файнтюнов этой модели, которые "расцензурят" базовую опенсорс версию. Думаю, через неделю-две будут вовсю.

Недавно (чуть больше недели назад) вышла Mixtral 8x22B - так для неё много команд делают файнтюны, уже парочка вышла. Для Llama3 будет то же самое.

Кстати, а может кто-нибудь простыми словами объяснить в чем разница между обычной и Instruct-версией?

Все просто - базовая версия просто обучена продолжать тексты (на большом их количестве). Базовая модель обычно не должна использоваться конечным пользователем, она в первую очередь используется для дотренировки другими специалистами.

Instruct-версия - это дотренированная базовая версия на исполнение инструкций пользователя. Именно её лучше юзать конечному пользователю.

Еще: для koboldcpp обязательно рекомендую ставить CLBlast, который процессит ввод на GPU. Потому что иногда процессинг входа на CPU может занимать несколько десятков секунд и быть по длительности сравнимым с собственно генерацией.

Насчет 1200 р/час - конечно, смешно загнули в статье. Можно найти под за рублей 50 в час на 24 Гб VRAM, и туда нормально поставить квантованную модель.

Насчет настроек - спасибо, прочитал, все толково, у меня стоит похоже. Еще отмечу, что в принципе можно взять какую-нибудь 7B модель и засунуть её в VRAM 8GB (q5 точно) - т.е. на картах недорогого уровня.

А, еще - для koboldcpp обязательно рекомендую ставить CLBlast, который процессит ввод на GPU. Потому что иногда процессинг входа на CPU может занимать несколько десятков секунд и быть по длительности сравнимым с собственно генерацией.

я не могу придумать пример стуации, когда ChatGPT использовать нельзя, а SberGPT

Я могу - нужны юридические ГАРАНТИИ, что данные не просачиваются за пределы страны. Для крупных фирм, в общем.

Утащил себе :)

Ой, пропустил что-то.

Ну у меня принцип простой - я даю компактные задачи с четкой формулировкой, стараюсь описывать сигнатуру функции и результат. Обычно даю задачи на конкретные небольшие функции, архитектуру планировать не даю конечно. Часто прошу написать тесты на эту же функцию, их просматриваю и добавляю в тест-сьют.

Так и это "зарабатывание" мало релевантно к жизненному опыту.

Наоборот - имхо очень релеватно! Попробовал, и сразу понимаешь - мысли стать блогером / ютубером / независимым разработчиком игр очень призрачны, ввиду того, что не соберешь аудиторию. И уже не будешь тратить на это время...

А они точно лидеры?

Вот например бенчмарки для открытых моделей на русской речи - и там Whisper не всегда топовая модель: https://alphacephei.com/nsh/2023/01/22/russian-models.html

Стараюсь на английском, но вроде недавно было исследование на arxiv, что никакой разницы ))

Насчет контекста - да, считаю, что надо подготовить хороший контекст по проекту, а дальше уже спрашивать (хотя руки толком не доходят)

Насчет плагинов для IDE - есть такой Continuе, у нас с ним есть интеграция, но, честно говоря, руки не доходили толково настроить, пока по старинке в чате делаю.

Вы задаете вопрос про RAG, я про него писал комментарий: https://habr.com/ru/companies/timeweb/articles/805261/comments/#comment_26701343

В целом вы ищете "серебряную пулю" - минимизация ресурсов и точность ответов. Как сваять - никто не знает.

Ну, тут в общем не про интернет в целом, а конкретно про текстовый контент - который вполне может существовать поверх существующего интернета.

Кстати, редкий случай предложения о котором я даже немного задумаюсь. По сути, идея проста - убрать то, что нужно большинству (видео и мемасики) из какого-то конкретного пространства. Хабр частично на этом живет - именно потому, что на нем жестко нет формата постов "это мемасик" и "это видюшка", которые отжирают большую часть места на массе других порталов, которые я не читаю.

С другой стороны, чисто текстовый вариант уже есть, и называется он arxiv.org, но мало кто даже из завсегдатаев Хабра там тусит )

Под рукой туториала по токенизации нет, увы.

https://pypi.org/project/youtube-transcript-api/ - для получения сабов. Потом объединяем все в один текст и скармливаем в OpenAI API, просим сделать summary.

Да, она у меня тоже есть, но запускается через API Cohere, в соответствии с их лицензией.

Для дома да, к сожалению, тяжелая...

Если опенсорс, то в целом рекомендую вышеуказанные модели про "опенсорс на русском" в самом начале статьи. Выбирать не так много из чего, к сожалению.

Но вообще RAG сейчас это да - скорее искусство, потому что уж очень много подходов. Можно по эмбеддингам фрагменты вытаскивать, можно искать разделы документов или целые документы и т.д.

Имхо простейший оптимальный способ - забить документ в 200к токенов контекста Клауд 3 Хайку, и все ок. Но, конечно, на очень больших базах такое не работает - и тут надо придумывать. Ну, и конечно, Хайку не опенсорс, локально не поставишь.

Нет, там же написано "Our default model has been optimised for the fastest results and for web browsing with dedicated fine tuning to ensure it performs best with quick searches. "

А так они предлагают купить подписку, и кроме их собственных моделей юзать еще Claude/GPT - но не для поиска, а просто так.

К тому же говорю - у них под капотом кроме модели еще веб-поиск, чего нет в других моделях по API, что приятно.

ChatGPT это не модель

Я в курсе, но, увы, приходится частично использовать терминологию широкой публики (упоминание в виде модели ChatGPT 4 меня вообще коробит)

У них вроде нет "своей" модели, просто файн-тюн и инфраструктура вокруг GPT/Claude

М-м. Ну вообще-то нет. Своя модель у них натренирована сначала поверх Llama (я новость писал даже на Хабре), потом Sonar. Да, файнтюн опенсорса, но под задачи "ответить на вопрос по результатам поиска в Интернете" - имхо достойно. Под капотом там не Клауд/GPT-3.5 - во всяком случае, по заявлениям, потому что свечку я не держал.

Число моделей там невелико именно потому, что моделей, которые имеет смысл тестировать

Файнтюны имеет смысл тестировать, они, как правило, лучше исходных моделей - иногда СИЛЬНО лучше. Впрочем, тут возможны разные мнения, и я бы предпочел не погружаться в этот спор. В основном, конечно, сайт тестирует всякий топ.

В общем, да.

Правда, как отдельная печаль, возникает некий тип разработчиков, которые в принципе не могут себе представить как можно в монолите самостоятельно запустить проект полностью.

Да я вообще отвечал в саркастическом духе, объясняя, что писать хорошо и эффективно как в НАСА для Вояджеров можно только, если у тебя очень жестко прописанная железная база. Тогда можно быть довольно эффективным - иначе добро пожаловать в мир HTML/JS, который по факту является универсальным графическим интерфейсом на разных платформах (потому что платформы не хотят договариваться об универсальном интерфейсе сами - и примеры приведены)

Тут был коммент со ссылкой на то "что занимает 300 Мб в приложении ВТБ" - правильно, ресурсы под разные архитектуры и разрешения экранов )

А Bootstrap и используется - 2010-х годов, 2-ой версии. 4-ую версию сделали со 2 несовместимой - и чтобы на неё перейти, опять надо кучу всего перепахивать.

Так что дизайна из 90-х там нет (я еще помню те сайты), но комментаторам по данной теме данный факт обычно рассуждать не мешает.

К сожалению, да, по общему мнению "современно выглядящий сайт" - это SPA с кучей JS и функциональностью приложения. Т.е. сравнение идет с монстрами типа Яндекса, Сбера, Гугла и прочих - у которых есть отдельная команда фронтенда, постоянно вылизывающих интерфейс.

1
23 ...

Информация

В рейтинге
220-й
Откуда
Королев, Москва и Московская обл., Россия
Зарегистрирован
Активность