Pull to refresh
8
0
Владимир Саморезов @vova_sam

Data scientist

Send message

В Москве уже пару лет на перекрестках плохо работают наушники. Каждый день мучаюсь, когда прохожу одни и те же перекрестки

либо это какие системы подсчета трафика, либо и правда глушилки. Скорее не глушилки, потому что один перекресток с подземный переходом

Артем, я именно про это и говорю. Ты должен отучиться математики/статистики, знать и уметь применять основные модели машинного обучения, уметь оптимизировать алгоритмы на ходу, быть идеального возраста и семейного положения. Победитель большинства конкурсов по DS. Реальный опыт высоконагруженных систем (желательно в Google). Если все прошел - ты Junior зарплатой 60 тыс. рублей на пару лет или больше. Будешь разрабатывать новую LLM c первого дня работы, чтобы через месяц она переплюнула GPT-4 по метрикам.
Когда моя жена эта увидела офферы и сколько сил надо потратить, чтобы все узнать, сказала что может взять меня к себе санитаркой за 70к. Там у нее работники за такую зарплату не знают даже слова "алгоритм" (как и 99% русских слов, и путают тряпки для мытья столов и полов) - полы в отделении надо мыть, в общем.

Ну а уровень ИТ систем в стране мы видим своими глазами при таких высоких требованиях к кандидатам даже на уровень junior.

Я так понял Middle - это минимум соавтор статьи "Attention is all you need", а Сеьор - тот кто может на Rapberry PI запустить GPT-5

Это я к тому, что задачи из Роадмап на собеседовании Junior это слишком )

При это вроде в след году заставляют набрать 1 млн IT специалистов :)
ну нет столько тех, кто умеет головоломки решать.

По задачам (в лоб почти все можно решить сразу). На оптимизацию может уходить сутки/двое размышлений. В Мегафон не будут резюме засылать - не тяну )

Артем, можно продолжить?
Я думаю в Мегафоне менеджер отдела закупок получает больше менеджера проекта из департамента развития, а тот в свою очередь больше, чем датасантист.
При этом при приеме на работу датасантисту надо быть по сути скрытым гением, обладать знанием математики, методов ML, с умением за час решить оптимизационную задачу. Желательно на доске построить небольшой трансформер для подбора идеального тарифного плана по тональности голоса абонента и подобрать вручную оптимальные веса.

Я просто знаю Мегафон (как МТС и Теле2, т.к. проработал с ними больше 10 лет в одном крупнейшем интеграторе). И прошел путь и закупками (конкурсы), и техблоком (подбор решений), а сейчас пытаюсь стать датасантистом. Могу сравнить уровни людей как по доходам, так и по квалификации прямо от первого лица.

так построен наш бизнес, что я остаюсь работать в продажах (чтобы жить хотя бы на среднем уровне), будучи ктн и сертифицированным специалистом по ML, а на досуге как хобби обучаю транформеры, пытаюсь для интереса запускать проекты на NLP (вот тут, например, новостной агрегатор с NLP запустил) и повышаю квалификацию (чтобы на пенсии радоваться наверное). И идти на собеседовании что то не хочется ибо требования не соотносятся с предложением.

одно дело знать базовые алгоритмы. А другое дело те задачи, что в Роадмап. Как , например, заполнение воды - это задачи не на алгоритмы, а головоломки. С таким успехом можно задавать задачу как перевести волка, козу и капусту на другую сторону
Если брать дата сантистов только с умением решать головоломки, то конечно супер команда получится )
вернее, мне кажется, пусто будет в отделе.

могу конечно ошибаться, но если давать на собеседовании эту задачу с водой, то мало кандидатов останется.

мне понравилось одно видео в интернете. "Когда вам нужно знать алгоритмы? при смене работы только :)"
но весь Ваш Роудмап я решаю потихоньку для интереса. Спасибо за него!!!

разве дата сантисту надо знать оптимизацию алгоритмов?
особенно тем, кто занимается машинным обучением.

часто изучают реализацию публичных популярных библиотек, сделанных профессионалами, чтобы изучать разные паттерны разработки. никогда такого не видел:

limit = 3
page = 0
while True:
    rsp = client.get_all_users(page=page, limit=limit)
    if not rsp.get("user_ids"):
        break
    yield rsp["user_ids"]
    page += 1

и вообще лучше написать понятно и просто, чем такие извращения. Сам потом забудешь, что имел ввиду

Но ради интересна в следующем проекте найду место для генератора

если для чего то инструмент не подходит, не значит что он вообще ни для чего не подходит. LLM можно поручить рутинные задачи, на которые просто лень тратить время.
во мой последний пример. Текст, надо из него для презентации сделать таблицу. Сам потратил бы 30-40 минут. LLM - 5 минут. 35 свободных минут сделал разминку для здоровья спины

для быта. нужно было приложение для Андройд, которое берет файл csv с тренировками и читает мне порядок упражнений и время исполнения. Это чудо, но бесплатный Bing сделал основу для него. Это было реальной чудо, ибо я написал в итоге такое приложение за вечер и этим вечером уже пошел с ним на тренировку. Потом уже просто украшал. Сам я бы неделю его придумывал и создавал

Еще создается ощущение, что вы не цените время сотрудников, если вам проще отвлечь 10 человек для того, чтобы они час-два делали то, что вы сделали бы один с нормальным запросом в GPT

к сожалению этот механизм плохо работает на реальный сайтах, которые не заботились о том, чтобы такие инструменты их распознали

я написал и запустил в работу инструмент для сбора сообщений с сайта yaplakal для создания датасета для машинного обучения. там нужно активно парсить таблицы (все сообщения в таблицах). На этом ресурсе надо искать поля целенаправленно, чтобы найти нужные данные. Pandas много мусора собирает

"Саентист" выглядит как "сатанист". Надо какое то другое слово придумать

антиреклама их курсов )

такой же вероятно у них "полный" курс по NLP

Спасибо, попробовал вот эту: openbuddy-mixtral-7bx8-v16.3-32k.Q3_K_M.gguf.
Все равно для русского как-то Сайга от Ильи получше справляется и быстрее работает. все в целом хорошая модель субъективно

обновление по попытке решать практические задачи. Авторы, вы молодцы, опыт точно поможет в будущем. Но Mistral Lora от Ильи лучше работает. Ну либо несовместимость с 4 битной версией какая то

взял нативый код из https://huggingface.co/Vikhrmodels/Vikhr-7B-instruct

одна разница загрузил в 4битной версии

# Activate 4-bit precision base model loading
use_4bit = True

# Compute dtype for 4-bit base models
bnb_4bit_compute_dtype = "float16"

# Quantization type (fp4 or nf4)
bnb_4bit_quant_type = "nf4"

# Activate nested quantization for 4-bit base models (double quantization)
use_nested_quant = False

compute_dtype = getattr(torch, bnb_4bit_compute_dtype)

bnb_config = BitsAndBytesConfig(
    load_in_4bit=use_4bit,
    bnb_4bit_quant_type=bnb_4bit_quant_type,
    bnb_4bit_compute_dtype=compute_dtype,
    bnb_4bit_use_double_quant=use_nested_quant,
)

работает шустр

я так понял вот это - mixtral-8x7b-instruct-v0.1.Q6_K.gguf

мне почему Сайга от Ильи больше понравилась по адекватности на русском. Я делаю RAG для ответа на вопросы по КоАП

Без Lora от Ильи? И хватает токенайзера? 4bit квантование?

Для каких задач, если не секрет?

Я так понял это скрытая реклама gigachat. Вообще сообщать лишний раз свои персональные данные госкорпорации для доступа к языковой модели это так себе

спасибо, что поделились результатами, Никита. но тут никакого сюрприза нет. 😊 Понятно, что вы по сути оплатили услуги перевода openAI.
главное что заказчик доволен соотношением результат/цена

извините, я не понял главный посыл - это mistral 7B написал? в этом прикол?

потому что естественный интеллект так плохо не напишет - либо он вообще не понимает пока, что такое ИИ(в школе учится), либо уже умеет грамотно излагать мысли на русском языке (с пунктуацией вообще беда )

На самом деле неверно написано, что это просто аналог f-строки. Это не аналог. Данная функциональность введена для того, чтобы загружать промпты в цепочку модуля langchain (chain). По сути специнструмент для работы с langchain

Information

Rating
4,361-st
Location
Москва, Москва и Московская обл., Россия
Date of birth
Registered
Activity