Как стать автором
Обновить
542.24

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга
Уровень сложности

Строим lineage моделей машинного обучения и признаков с помощью OpenMetadata

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров5.4K

Привет, Хабр!

Мы в билайне любим машинное обучение. В какой-то момент моделей машинного обучения стало так много, что это вынудило нас решать определенные задачи. Я Дмитрий Ермилов, руковожу ML в дирекции по искусственному интеллекту и цифровым продуктам. О решении одной такой задачи и будет этот рассказ.

Давайте представим, что у вас в компании большое количество моделей машинного обучения, каждая из которой может зависеть от нескольких десятков до нескольких тысяч признаков (фич). Причем разные модели могут зависеть от одних и тех же фич. Неожиданно случается несчастье, и одна из популярных фич ломается. Может произойти поломка на уровне подготовки данных, могут измениться внешние источники, отвалиться интеграции и прочее. Что делать с этим знанием? Конечно, бежать в продуктовые команды и кричать, что модели, которые зависят от этой фичи, могут деградировать, то есть их метрики качества могут снизиться. Вопрос только в том, какие модели могут деградировать и в какие команды бежать?

Напомним, в каких условиях мы анализируем данные и строим модели машинного обучения.

Читать далее
Всего голосов 9: ↑11.5 и ↓-2.5+14
Комментарии0

Использование LLM в автоматизации рутинных задач

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров8.6K

Всем привет!

На связи Георгий Бредис, Deep Learning Engineer из команды Intelligent Document Processing в SberDevices. Наша команда занимается задачами автоматизации бизнес-процессов путем извлечения информации из неструктурированного контента и созданием сервисов суммаризации и поиска на основе LLM. В данный момент мы исследуем новые способы извлечения информации из интерфейсов, что открывает новые возможности для автоматизации процессов в сфере RPA.

В этой статье речь пойдет об использовании больших языковых моделей для работы с браузером, как одного из самых распространенных примеров интерфейса.

Читать далее
Всего голосов 16: ↑19.5 и ↓-3.5+23
Комментарии5

Какой язык программирования выбрать? Обзор Python

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров7.2K

Шестая статья нашего цикла про языки программирования посвящена Python. Её подготовила группа серверной разработки компании «Криптонит». В обзоре вы найдёте особенности, плюсы и минусы Python, сферы его применения и полезные ссылки для обучения.

Ранее наши разработчики делали обзоры Rust, Scala, JavaScript, Spark и Golang.

Читать далее
Всего голосов 19: ↑11 и ↓8+3
Комментарии3

Оптимизация гиперпараметров за 5 секунд?

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров4.6K

Пока люди с самыми малыми вычислительными машинами в пустую тратят время на перебор гиперпараметров внутри библиотеки Scikit-learn – настоящие гении тайм-менеджмента выбирают TPE и Optuna. 

В этой статье мы рассмотрим самые популярные методы оптимизации Grid.Search и Random.Search, принципы Байесовской/вероятностной оптимизации, а также TPE в Optuna. В конце прописали небольшой словарик с функциями, атрибутами и объектами фреймворка, а также привели наглядный пример использования. 

Читать далее
Всего голосов 7: ↑5.5 и ↓1.5+4
Комментарии6

Истории

Больше ИИ-инструментов, хороших и разных: Google представила помощника для написания кода

Время на прочтение3 мин
Количество просмотров5.8K

Всё больше компаний создают разнообразные ИИ-модели, и, конечно, крупные корпорации — впереди планеты всей. На днях Google представила свой новый проект — Gemini Code Assist, инструмент, который помогает разработчикам писать код. О том, что это за новинка и какие ей дали возможности — читайте под катом.

Читать далее
Всего голосов 8: ↑9.5 и ↓-1.5+11
Комментарии7

Простейшая нейронная сеть, мой опыт и выводы

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров6.6K

Мой маленький шажок на пути подготовки к написанию шахматного движка. Написание простейшей нейронной сети, выяснение, что это за зверь такой.

Читать далее
Всего голосов 12: ↑12 и ↓0+12
Комментарии14

LOCOST и SPECTRUM, два подхода к суммаризации

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров455

2-3 абзаца — привычный размер входного текста для языковых моделей. Больше — тяжело, потому что вычислительная сложность растет квадратичным образом. Поэтому битва за удлинение контекста продолжается и постоянно возникают новые, общие или не очень, подходы. В этом обзоре мы расскажем о двух подходах, связанных с суммаризацией большого текста. Первый — LOCOST — направлен на длинные тексты (статьи и целые книги). Второй — SPECTRUM — на долгие диалоги.

Читать далее
Всего голосов 2: ↑2 и ↓0+2
Комментарии0

Не DeepL-ом единым. Нейросетевой переводчик для ваших проектов в VS Code за пару кликов

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров1.9K

По рабочим вопросам, я применяю DeepL для перевода технической документации, так как необходимое качество «подстрочника» он обеспечивает и ускоряет работу над однотипными текстами, которые после остается только вычитать и поправить явные ляпы в оборотах и терминологии. Но захотелось посмотреть, а что можно применить взамен, бесплатно, offline и в связке с VS Code, особенно учитывая намеки авторов переводчика скоро прикрыть «халяву» с бесплатным AI Writer.

Читать далее
Всего голосов 3: ↑4 и ↓-1+5
Комментарии6

Российские роботы выполняют задачи на естественном языке. Зимний ROS Meetup 2024 — как это было и как это будет?

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров1.1K

Всем привет! Сегодня мы отправимся в прошлое и вспомним, как проходил зимний ROS Meetup 3 февраля 2024 года: какие темы по LLM, Deep Learning и антропоморфным роботам были раскрыты и что нас ждет дальше?

Читать далее
Всего голосов 13: ↑10.5 и ↓2.5+8
Комментарии5

Заменят ли LLM людей в разметке данных для AI?

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров1.7K

Привет! Использование ИИ в разметке данных для него же — уже скорее необходимая потребность, нежели что-то удивительно новое. Разного рода экспериментами с авторазметкой данных нейронками мы занимаемся последние полгода и результаты — нравятся.

В данной статье я детально расскажу о нашем самом первом эксперименте с LLM в разметке данных для ИИ и proof-of-concept их годноты использования в реальных задачах, а в процессе попробую ответить на большой вопрос — так заменят ли LLM людей в разметке данных?

Давайте вооружимся GigaChat, chatGPT, Gemini и начнем!

Читать далее
Всего голосов 10: ↑9 и ↓1+8
Комментарии5

Как мы тестировали большие языковые модели для модерации отзывов

Время на прочтение10 мин
Количество просмотров2.1K

В приложении «Магнит: акции и доставка» можно оставлять отзывы на товары. Отзывы модерируются: мы публикуем те, которые считаем полезными для других покупателей, — они должны описывать потребительские свойства товара. Отклоняем все остальные: как правило, это жалобы на ценники, сервис в магазине, условия хранения либо просто нерелевантные тексты. Отзывы с жалобами обрабатывают службы поддержки и сервиса.

Рассказываем о том, как мы попробовали применять большие языковые модели, чтобы автоматизировать модерацию отзывов. 

Читать далее
Всего голосов 9: ↑9 и ↓0+9
Комментарии3

Как создать чат-бот поддержки, который сэкономит вам миллионы

Время на прочтение6 мин
Количество просмотров4.5K

Привет, Хабр. Я Антон Лазарев, руководитель группы автоматизации ИТ-процессов. Хочу поделиться с вами небольшой, но поучительной историей о процессе разработки и внедрения одного из самых любимых инструментов наших пользователей для общения с поддержкой. Поделюсь результатами и пройдусь по граблям, на которые мы успели наступить в прошлом, пока разрабатывали наш чат-бот Айтишу.

Читать далее
Всего голосов 12: ↑9.5 и ↓2.5+7
Комментарии7

Распознавание лиц на микрокомпьютерах

Время на прочтение9 мин
Количество просмотров4.3K

В последние годы появляется всё больше технологий с использованием Computer Vision: это и беспилотные автомобили, и Face ID в телефоне, и умные камеры, способные фиксировать утечку теплоизоляции крыши. Кто-то прогресс приветствует, кто-то нет, но неизменно одно – процесс этот неостановим. Особенно активно развивается технология распознавания лиц, которую мы разберем в этой статье. Только в этот раз вас ожидает не классический пайплайн системы, но разбор технологии на микрокопьютерах. Подготовил ее я, Саша Шувалов – аналитик-разработчик компании Кросстех Солюшнс Групп. 

Читать далее
Всего голосов 6: ↑7 и ↓-1+8
Комментарии7

Ближайшие события

Книга «Разработка приложений на базе GPT-4 и ChatGPT»

Время на прочтение11 мин
Количество просмотров10K
image Привет, Хаброжители!

Эта небольшая книга представляет собой подробное руководство для разработчиков на Python, желающих научиться создавать приложения с использованием больших языковых моделей. Авторы расскажут об основных возможностях и преимуществах GPT-4 и ChatGPT, а также принципах их работы. Здесь же вы найдете пошаговые инструкции по разработке приложений с использованием библиотеки поддержки GPT-4 и ChatGPT для Python, в том числе инструментов для генерирования текста, отправки вопросов и получения ответов и обобщения контента.

«Разработка приложений на базе GPT-4 и ChatGPT» содержит множество легковоспроизводимых примеров, которые помогут освоить особенности применения моделей в своих проектах. Все примеры кода на Python доступны в репозитории GitHub. Решили использовать возможности LLM в своих приложениях? Тогда вы выбрали правильную книгу.
Читать дальше →
Всего голосов 7: ↑8 и ↓-1+9
Комментарии3

Что такое Charmed Kubeflow?

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров1.3K

Charmed Kubeflow - это готовая к производству сквозная платформа MLOps с открытым исходным кодом на базе нативных облачных технологий.

Charmed Kubeflow преобразует шаги Machine Learning в полноценные рабочие процессы, позволяя обучать, настраивать и отправлять модели Machine Learning (ML). Это позволяет автоматизировать рабочие процессы, повысить качество моделей и упростить развертывание рабочих нагрузок ML в производстве надежным способом.

Charmed Kubeflow удовлетворяет потребность в создании приложений ML структурированным и последовательным образом, способствуя повышению производительности и улучшению сотрудничества в командах Data Science.

Для Data Scientists и Machine Learning Engineers Charmed Kubeflow предоставляет расширенный набор инструментов для организации и масштабирования их работы.

Читать далее
Всего голосов 3: ↑3 и ↓0+3
Комментарии2

Я изучила 900 самых популярных инструментов ИИ на базе open source — и вот что обнаружила

Время на прочтение8 мин
Количество просмотров31K

Четыре года назад ИТ-эксперт Чип Хуэн* проанализировала экосистему ML с открытым исходным кодом. С тех пор многое изменилось, и она вернулась к изучению темы, на этот раз сосредоточившись исключительно на стеке вокруг базовых моделей.

О результатах исследования читайте под катом.

*Обращаем ваше внимание, что позиция автора может не всегда совпадать с мнением МойОфис.

Читать далее
Всего голосов 42: ↑42 и ↓0+42
Комментарии8

Как меняются методы расследования на Standoff: кейс аналитика PT Expert Security Center

Уровень сложностиПростой
Время на прочтение14 мин
Количество просмотров1.6K

Всем привет! Меня зовут Юлия Фомина, в Positive Technologies я занимаюсь проактивным поиском и обнаружением угроз, что в профессиональной среде называется threat hunting. И все эти знания наша команда превращает в экспертизу продуктов Positive Technologies. И конечно же, мы не только обогащаем наши продукты уникальной экспертизой, но и в буквальном смысле пробуем каждый продукт в деле. Сегодня поговорим про мой опыт работы с одной из наших новейших разработок — автопилотом MaxPatrol O2, а также о том, как он упростил нам работу при анализе и расследовании активности белых хакеров во время двенадцатой кибербитвы Standoff.

Читать
Всего голосов 5: ↑6 и ↓-1+7
Комментарии1

SAGE v1.1.0: как мы учили генеративный корректор орфографии ошибаться реже, думать быстрее и исправлять пунктуацию

Уровень сложностиСредний
Время на прочтение15 мин
Количество просмотров1.2K

В октябре прошлого года мы выпустили SAGE — библиотеку для генеративной коррекции орфографии, которая включает в себя семейство предобученных трансформерных моделей, хаб с параллельными вручную размеченными датасетами и два алгоритма текстовой аугментации на основе намеренного искажения правописания. 

С момента прошлого релиза мы улучшили качество наших моделей более чем на 10%, добавили правку знаков пунктуации и регистра, провели эксперименты по сжатию и ускорению полученных решений, добавили разметку пунктуации в датасеты и новые метрики в библиотеку, а нашу статью взяли на EACL 2024 в Мальте. 

Читать далее
Всего голосов 15: ↑16.5 и ↓-1.5+18
Комментарии3

Метрика в машинном обучении сложных систем, алгоритм и программный код

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров2K

Для решения задач машинного обучения предлагается метрика, основанная на формуле отношения сигнала к шуму, SNR:

Читать далее
Всего голосов 2: ↑2 и ↓0+2
Комментарии7

Как большие языковые модели в Street Fighter играли

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров2.4K

Что будет, если устроить совершенно новый тип тестирования для больших языковых моделей (LLM)? Например, выпустить несколько моделей на арену и заставить их соревноваться друг с другом?

Именно это я и решил сделать: столкнуть LLM друг с другом в классической аркаде Street Fighter III. Далее расскажу, как я создал эту арену и какие интересные наблюдения сделал во время битв LLM на виртуальных улицах Метро-Сити.

Читать далее
Всего голосов 10: ↑10.5 и ↓-0.5+11
Комментарии0

Вклад авторов

Работа

Data Scientist
61 вакансия