Комментарии / Профиль janvarev / Хабр

Как стать автором

Январев Владислав @janvarev

Когнитивист, предприниматель, Senior Python dev

Профиль Публикации 17Комментарии 934Закладки 1.3K

Llama 3 — новое поколение AI моделей. Open-source конкурент GPT от Meta и интервью Марка Цукерберга

janvarev 2 часа назад

Тупо ждем файнтюнов этой модели, которые "расцензурят" базовую опенсорс версию. Думаю, через неделю-две будут вовсю.

Недавно (чуть больше недели назад) вышла Mixtral 8x22B - так для неё много команд делают файнтюны, уже парочка вышла. Для Llama3 будет то же самое.

+1

Посмотреть

Llama 3 — новое поколение AI моделей. Open-source конкурент GPT от Meta и интервью Марка Цукерберга

janvarev 2 часа назад

Кстати, а может кто-нибудь простыми словами объяснить в чем разница между обычной и Instruct-версией?

Все просто - базовая версия просто обучена продолжать тексты (на большом их количестве). Базовая модель обычно не должна использоваться конечным пользователем, она в первую очередь используется для дотренировки другими специалистами.

Instruct-версия - это дотренированная базовая версия на исполнение инструкций пользователя. Именно её лучше юзать конечному пользователю.

+3

Посмотреть

LLMOps: не разрешают использовать ChatGPT. Что можно сделать?

janvarev 20 часов назад

Еще: для koboldcpp обязательно рекомендую ставить CLBlast, который процессит ввод на GPU. Потому что иногда процессинг входа на CPU может занимать несколько десятков секунд и быть по длительности сравнимым с собственно генерацией.

+1

Посмотреть

LLMOps: не разрешают использовать ChatGPT. Что можно сделать?

janvarev 20 часов назад

Насчет 1200 р/час - конечно, смешно загнули в статье. Можно найти под за рублей 50 в час на 24 Гб VRAM, и туда нормально поставить квантованную модель.

Насчет настроек - спасибо, прочитал, все толково, у меня стоит похоже. Еще отмечу, что в принципе можно взять какую-нибудь 7B модель и засунуть её в VRAM 8GB (q5 точно) - т.е. на картах недорогого уровня.

А, еще - для koboldcpp обязательно рекомендую ставить CLBlast, который процессит ввод на GPU. Потому что иногда процессинг входа на CPU может занимать несколько десятков секунд и быть по длительности сравнимым с собственно генерацией.

я не могу придумать пример стуации, когда ChatGPT использовать нельзя, а SberGPT

Я могу - нужны юридические ГАРАНТИИ, что данные не просачиваются за пределы страны. Для крупных фирм, в общем.

0

Посмотреть

LLMOps: не разрешают использовать ChatGPT. Что можно сделать?

janvarev вчера в 09:50

Утащил себе :)

0

Посмотреть

GPT-4, Claude 3, Gemini Pro или опенсорс — как выбрать LLM под свою задачу?

janvarev 17 апр в 10:31

Ой, пропустил что-то.

Ну у меня принцип простой - я даю компактные задачи с четкой формулировкой, стараюсь описывать сигнатуру функции и результат. Обычно даю задачи на конкретные небольшие функции, архитектуру планировать не даю конечно. Часто прошу написать тесты на эту же функцию, их просматриваю и добавляю в тест-сьют.

0

Посмотреть

Эксплуатация детей через игры. Золотая лихорадка среди детей Америки

janvarev 15 апр в 12:19

Так и это "зарабатывание" мало релевантно к жизненному опыту.

Наоборот - имхо очень релеватно! Попробовал, и сразу понимаешь - мысли стать блогером / ютубером / независимым разработчиком игр очень призрачны, ввиду того, что не соберешь аудиторию. И уже не будешь тратить на это время...

+5

Посмотреть

Universal-1 от AssemblyAI превзошел Whisper от OpenAI: новый лидер в гонке решений для распознавания речи

janvarev 12 апр в 19:10

А они точно лидеры?

Вот например бенчмарки для открытых моделей на русской речи - и там Whisper не всегда топовая модель: https://alphacephei.com/nsh/2023/01/22/russian-models.html

0

Посмотреть

GPT-4, Claude 3, Gemini Pro или опенсорс — как выбрать LLM под свою задачу?

janvarev 12 апр в 11:55

Стараюсь на английском, но вроде недавно было исследование на arxiv, что никакой разницы ))

Насчет контекста - да, считаю, что надо подготовить хороший контекст по проекту, а дальше уже спрашивать (хотя руки толком не доходят)

Насчет плагинов для IDE - есть такой Continuе, у нас с ним есть интеграция, но, честно говоря, руки не доходили толково настроить, пока по старинке в чате делаю.

0

Посмотреть

GPT-4, Claude 3, Gemini Pro или опенсорс — как выбрать LLM под свою задачу?

janvarev 10 апр в 19:42

Вы задаете вопрос про RAG, я про него писал комментарий: https://habr.com/ru/companies/timeweb/articles/805261/comments/#comment_26701343

В целом вы ищете "серебряную пулю" - минимизация ресурсов и точность ответов. Как сваять - никто не знает.

0

Посмотреть

Идеология второго интернета

janvarev 10 апр в 10:50

Ну, тут в общем не про интернет в целом, а конкретно про текстовый контент - который вполне может существовать поверх существующего интернета.

Кстати, редкий случай предложения о котором я даже немного задумаюсь. По сути, идея проста - убрать то, что нужно большинству (видео и мемасики) из какого-то конкретного пространства. Хабр частично на этом живет - именно потому, что на нем жестко нет формата постов "это мемасик" и "это видюшка", которые отжирают большую часть места на массе других порталов, которые я не читаю.

С другой стороны, чисто текстовый вариант уже есть, и называется он arxiv.org, но мало кто даже из завсегдатаев Хабра там тусит )

+5

Посмотреть

GPT-4, Claude 3, Gemini Pro или опенсорс — как выбрать LLM под свою задачу?

janvarev 9 апр в 09:56

Под рукой туториала по токенизации нет, увы.

0

Посмотреть

GPT-4, Claude 3, Gemini Pro или опенсорс — как выбрать LLM под свою задачу?

janvarev 9 апр в 09:53

https://pypi.org/project/youtube-transcript-api/ - для получения сабов. Потом объединяем все в один текст и скармливаем в OpenAI API, просим сделать summary.

0

Посмотреть

GPT-4, Claude 3, Gemini Pro или опенсорс — как выбрать LLM под свою задачу?

janvarev 9 апр в 09:45

Да, она у меня тоже есть, но запускается через API Cohere, в соответствии с их лицензией.

Для дома да, к сожалению, тяжелая...

0

Посмотреть

GPT-4, Claude 3, Gemini Pro или опенсорс — как выбрать LLM под свою задачу?

janvarev 8 апр в 17:13

Если опенсорс, то в целом рекомендую вышеуказанные модели про "опенсорс на русском" в самом начале статьи. Выбирать не так много из чего, к сожалению.

Но вообще RAG сейчас это да - скорее искусство, потому что уж очень много подходов. Можно по эмбеддингам фрагменты вытаскивать, можно искать разделы документов или целые документы и т.д.

Имхо простейший оптимальный способ - забить документ в 200к токенов контекста Клауд 3 Хайку, и все ок. Но, конечно, на очень больших базах такое не работает - и тут надо придумывать. Ну, и конечно, Хайку не опенсорс, локально не поставишь.

+1

Посмотреть

GPT-4, Claude 3, Gemini Pro или опенсорс — как выбрать LLM под свою задачу?

janvarev 8 апр в 15:11

Нет, там же написано "Our default model has been optimised for the fastest results and for web browsing with dedicated fine tuning to ensure it performs best with quick searches. "

А так они предлагают купить подписку, и кроме их собственных моделей юзать еще Claude/GPT - но не для поиска, а просто так.

К тому же говорю - у них под капотом кроме модели еще веб-поиск, чего нет в других моделях по API, что приятно.

+1

Посмотреть

GPT-4, Claude 3, Gemini Pro или опенсорс — как выбрать LLM под свою задачу?

janvarev 8 апр в 12:26

ChatGPT это не модель

Я в курсе, но, увы, приходится частично использовать терминологию широкой публики (упоминание в виде модели ChatGPT 4 меня вообще коробит)

У них вроде нет "своей" модели, просто файн-тюн и инфраструктура вокруг GPT/Claude

М-м. Ну вообще-то нет. Своя модель у них натренирована сначала поверх Llama (я новость писал даже на Хабре), потом Sonar. Да, файнтюн опенсорса, но под задачи "ответить на вопрос по результатам поиска в Интернете" - имхо достойно. Под капотом там не Клауд/GPT-3.5 - во всяком случае, по заявлениям, потому что свечку я не держал.

Число моделей там невелико именно потому, что моделей, которые имеет смысл тестировать

Файнтюны имеет смысл тестировать, они, как правило, лучше исходных моделей - иногда СИЛЬНО лучше. Впрочем, тут возможны разные мнения, и я бы предпочел не погружаться в этот спор. В основном, конечно, сайт тестирует всякий топ.

0

Посмотреть

Программирование и ИТ во мгле, но это не точно

janvarev 6 апр в 14:41

В общем, да.

Правда, как отдельная печаль, возникает некий тип разработчиков, которые в принципе не могут себе представить как можно в монолите самостоятельно запустить проект полностью.

0

Посмотреть

Программирование и ИТ во мгле, но это не точно

janvarev 6 апр в 14:37

Да я вообще отвечал в саркастическом духе, объясняя, что писать хорошо и эффективно как в НАСА для Вояджеров можно только, если у тебя очень жестко прописанная железная база. Тогда можно быть довольно эффективным - иначе добро пожаловать в мир HTML/JS, который по факту является универсальным графическим интерфейсом на разных платформах (потому что платформы не хотят договариваться об универсальном интерфейсе сами - и примеры приведены)

Тут был коммент со ссылкой на то "что занимает 300 Мб в приложении ВТБ" - правильно, ресурсы под разные архитектуры и разрешения экранов )

0

Посмотреть

Программирование и ИТ во мгле, но это не точно

janvarev 6 апр в 14:34

А Bootstrap и используется - 2010-х годов, 2-ой версии. 4-ую версию сделали со 2 несовместимой - и чтобы на неё перейти, опять надо кучу всего перепахивать.

Так что дизайна из 90-х там нет (я еще помню те сайты), но комментаторам по данной теме данный факт обычно рассуждать не мешает.

К сожалению, да, по общему мнению "современно выглядящий сайт" - это SPA с кучей JS и функциональностью приложения. Т.е. сравнение идет с монстрами типа Яндекса, Сбера, Гугла и прочих - у которых есть отдельная команда фронтенда, постоянно вылизывающих интерфейс.

0

Посмотреть

1

2 3 ...