Comments / Profile of vova_sam / Habr

How to become an author

Владимир Саморезов @vova_sam

Data scientist

Profile Publications 3 Comments 94 Bookmarks 2

В России студенты разработали «глушилку» для беспроводных наушников по заказу РЖД

vova_sam Apr 6 at 00:03

В Москве уже пару лет на перекрестках плохо работают наушники. Каждый день мучаюсь, когда прохожу одни и те же перекрестки

либо это какие системы подсчета трафика, либо и правда глушилки. Скорее не глушилки, потому что один перекресток с подземный переходом

+2

Материалы для подготовки к собеседованию на позицию Data Scientist. Часть 1: Live Coding

vova_sam Apr 4 at 20:50

Артем, я именно про это и говорю. Ты должен отучиться математики/статистики, знать и уметь применять основные модели машинного обучения, уметь оптимизировать алгоритмы на ходу, быть идеального возраста и семейного положения. Победитель большинства конкурсов по DS. Реальный опыт высоконагруженных систем (желательно в Google). Если все прошел - ты Junior зарплатой 60 тыс. рублей на пару лет или больше. Будешь разрабатывать новую LLM c первого дня работы, чтобы через месяц она переплюнула GPT-4 по метрикам.
Когда моя жена эта увидела офферы и сколько сил надо потратить, чтобы все узнать, сказала что может взять меня к себе санитаркой за 70к. Там у нее работники за такую зарплату не знают даже слова "алгоритм" (как и 99% русских слов, и путают тряпки для мытья столов и полов) - полы в отделении надо мыть, в общем.

Ну а уровень ИТ систем в стране мы видим своими глазами при таких высоких требованиях к кандидатам даже на уровень junior.

Я так понял Middle - это минимум соавтор статьи "Attention is all you need", а Сеьор - тот кто может на Rapberry PI запустить GPT-5

Это я к тому, что задачи из Роадмап на собеседовании Junior это слишком )

При это вроде в след году заставляют набрать 1 млн IT специалистов :)
ну нет столько тех, кто умеет головоломки решать.

По задачам (в лоб почти все можно решить сразу). На оптимизацию может уходить сутки/двое размышлений. В Мегафон не будут резюме засылать - не тяну )

0

Материалы для подготовки к собеседованию на позицию Data Scientist. Часть 1: Live Coding

vova_sam Apr 4 at 13:17

Артем, можно продолжить?
Я думаю в Мегафоне менеджер отдела закупок получает больше менеджера проекта из департамента развития, а тот в свою очередь больше, чем датасантист.
При этом при приеме на работу датасантисту надо быть по сути скрытым гением, обладать знанием математики, методов ML, с умением за час решить оптимизационную задачу. Желательно на доске построить небольшой трансформер для подбора идеального тарифного плана по тональности голоса абонента и подобрать вручную оптимальные веса.

Я просто знаю Мегафон (как МТС и Теле2, т.к. проработал с ними больше 10 лет в одном крупнейшем интеграторе). И прошел путь и закупками (конкурсы), и техблоком (подбор решений), а сейчас пытаюсь стать датасантистом. Могу сравнить уровни людей как по доходам, так и по квалификации прямо от первого лица.

так построен наш бизнес, что я остаюсь работать в продажах (чтобы жить хотя бы на среднем уровне), будучи ктн и сертифицированным специалистом по ML, а на досуге как хобби обучаю транформеры, пытаюсь для интереса запускать проекты на NLP (вот тут, например, новостной агрегатор с NLP запустил) и повышаю квалификацию (чтобы на пенсии радоваться наверное). И идти на собеседовании что то не хочется ибо требования не соотносятся с предложением.

0

Материалы для подготовки к собеседованию на позицию Data Scientist. Часть 1: Live Coding

vova_sam Apr 2 at 12:49

одно дело знать базовые алгоритмы. А другое дело те задачи, что в Роадмап. Как , например, заполнение воды - это задачи не на алгоритмы, а головоломки. С таким успехом можно задавать задачу как перевести волка, козу и капусту на другую сторону
Если брать дата сантистов только с умением решать головоломки, то конечно супер команда получится )
вернее, мне кажется, пусто будет в отделе.

могу конечно ошибаться, но если давать на собеседовании эту задачу с водой, то мало кандидатов останется.

мне понравилось одно видео в интернете. "Когда вам нужно знать алгоритмы? при смене работы только :)"
но весь Ваш Роудмап я решаю потихоньку для интереса. Спасибо за него!!!

0

Материалы для подготовки к собеседованию на позицию Data Scientist. Часть 1: Live Coding

vova_sam Mar 24 at 17:51

разве дата сантисту надо знать оптимизацию алгоритмов?
особенно тем, кто занимается машинным обучением.

0

Улучшаем свой код на Python

vova_sam Mar 11 at 19:04

часто изучают реализацию публичных популярных библиотек, сделанных профессионалами, чтобы изучать разные паттерны разработки. никогда такого не видел:

limit = 3
page = 0
while True:
    rsp = client.get_all_users(page=page, limit=limit)
    if not rsp.get("user_ids"):
        break
    yield rsp["user_ids"]
    page += 1

и вообще лучше написать понятно и просто, чем такие извращения. Сам потом забудешь, что имел ввиду

Но ради интересна в следующем проекте найду место для генератора

0

Не ищите нейросеть — у вас в команде она уже есть

vova_sam Mar 11 at 14:12

если для чего то инструмент не подходит, не значит что он вообще ни для чего не подходит. LLM можно поручить рутинные задачи, на которые просто лень тратить время.
во мой последний пример. Текст, надо из него для презентации сделать таблицу. Сам потратил бы 30-40 минут. LLM - 5 минут. 35 свободных минут сделал разминку для здоровья спины

для быта. нужно было приложение для Андройд, которое берет файл csv с тренировками и читает мне порядок упражнений и время исполнения. Это чудо, но бесплатный Bing сделал основу для него. Это было реальной чудо, ибо я написал в итоге такое приложение за вечер и этим вечером уже пошел с ним на тренировку. Потом уже просто украшал. Сам я бы неделю его придумывал и создавал

Еще создается ощущение, что вы не цените время сотрудников, если вам проще отвлечь 10 человек для того, чтобы они час-два делали то, что вы сделали бы один с нормальным запросом в GPT

+1

Руководство по веб-скрейпингу на Python

vova_sam Feb 29 at 11:24

к сожалению этот механизм плохо работает на реальный сайтах, которые не заботились о том, чтобы такие инструменты их распознали

я написал и запустил в работу инструмент для сбора сообщений с сайта yaplakal для создания датасета для машинного обучения. там нужно активно парсить таблицы (все сообщения в таблицах). На этом ресурсе надо искать поля целенаправленно, чтобы найти нужные данные. Pandas много мусора собирает

0

40 Полезных инструментов Дата Саентиста

vova_sam Feb 25 at 12:00

"Саентист" выглядит как "сатанист". Надо какое то другое слово придумать

+2

Создаем чат-бота на Python: Полное руководство

vova_sam Feb 15 at 14:57

антиреклама их курсов )

такой же вероятно у них "полный" курс по NLP

0

GigaChat обогнал по качеству ChatGPT и расширил контекст до 32 тысяч токенов

vova_sam Feb 3 at 00:40

опять прорыв и всех обогнали

+8

Вихрь — семейство переведенных русскоязычных LLM

vova_sam Jan 27 at 00:07

Спасибо, попробовал вот эту: openbuddy-mixtral-7bx8-v16.3-32k.Q3_K_M.gguf.
Все равно для русского как-то Сайга от Ильи получше справляется и быстрее работает. все в целом хорошая модель субъективно

0

Вихрь — семейство переведенных русскоязычных LLM

vova_sam Jan 25 at 21:23

обновление по попытке решать практические задачи. Авторы, вы молодцы, опыт точно поможет в будущем. Но Mistral Lora от Ильи лучше работает. Ну либо несовместимость с 4 битной версией какая то

0

Вихрь — семейство переведенных русскоязычных LLM

vova_sam Jan 24 at 22:36

взял нативый код из https://huggingface.co/Vikhrmodels/Vikhr-7B-instruct

одна разница загрузил в 4битной версии

# Activate 4-bit precision base model loading
use_4bit = True

# Compute dtype for 4-bit base models
bnb_4bit_compute_dtype = "float16"

# Quantization type (fp4 or nf4)
bnb_4bit_quant_type = "nf4"

# Activate nested quantization for 4-bit base models (double quantization)
use_nested_quant = False

compute_dtype = getattr(torch, bnb_4bit_compute_dtype)

bnb_config = BitsAndBytesConfig(
    load_in_4bit=use_4bit,
    bnb_4bit_quant_type=bnb_4bit_quant_type,
    bnb_4bit_compute_dtype=compute_dtype,
    bnb_4bit_use_double_quant=use_nested_quant,
)

работает шустр

0

Вихрь — семейство переведенных русскоязычных LLM

vova_sam Jan 24 at 22:19

я так понял вот это - mixtral-8x7b-instruct-v0.1.Q6_K.gguf

мне почему Сайга от Ильи больше понравилась по адекватности на русском. Я делаю RAG для ответа на вопросы по КоАП

0

Вихрь — семейство переведенных русскоязычных LLM

vova_sam Jan 24 at 14:50

Без Lora от Ильи? И хватает токенайзера? 4bit квантование?

Для каких задач, если не секрет?

0

Как я использую GigaChat для Frontend разработки

vova_sam Jan 24 at 11:58

Я так понял это скрытая реклама gigachat. Вообще сообщать лишний раз свои персональные данные госкорпорации для доступа к языковой модели это так себе

0

Как мы сделали переводчик точнее и дешевле Google и Yandex

vova_sam Jan 23 at 13:30

спасибо, что поделились результатами, Никита. но тут никакого сюрприза нет. 😊 Понятно, что вы по сути оплатили услуги перевода openAI.
главное что заказчик доволен соотношением результат/цена

+4

Проанализируй меня если сможешь! Мета вопрос, или как я не перестал бояться и полюбил большие языковые модели

vova_sam Jan 22 at 17:38

извините, я не понял главный посыл - это mistral 7B написал? в этом прикол?

потому что естественный интеллект так плохо не напишет - либо он вообще не понимает пока, что такое ИИ(в школе учится), либо уже умеет грамотно излагать мысли на русском языке (с пунктуацией вообще беда )

0

Русский LLM-помощник (saiga) с кэшем, используя RAG (Retrieval-Augmented Generation)

vova_sam Jan 18 at 10:07

На самом деле неверно написано, что это просто аналог f-строки. Это не аналог. Данная функциональность введена для того, чтобы загружать промпты в цепочку модуля langchain (chain). По сути специнструмент для работы с langchain

0

1