User

Profile Publications Comments 8Bookmarks 74

Leono Jan 15 2020 at 12:18

gRPC в качестве протокола межсервисного взаимодействия. Доклад Яндекса

16 min

187K

Java*C++*Яндекс corporate blogAPI*Microservices*

gRPC — опенсорсный фреймворк для удаленного вызова процедур. В Яндекс.Маркете gRPC используется как более удобная альтернатива REST. Сергей Федосеенков, который руководит службой разработки инструментов для партнеров Маркета, поделился опытом использования gRPC в качестве протокола для построения интеграций между сервисами на Java и C++. Из доклада вы узнаете, как избежать частых проблем, если вы начинаете использовать gRPC после REST, как возвращать ошибки, реализовать трассировку, отлаживать запросы и тестировать вызовы клиентов. В конце есть неофициальная запись доклада.

— Сначала хотелось бы познакомить вас с некоторыми фактами про Яндекс.Маркет, они будут полезны в рамках доклада. Первый факт: мы пишем сервисы на разных языках. Это накладывает требования по наличию клиентов для сервисов.

Читать дальше →

+30

Takagi Sep 7 2023 at 09:11

Как (быстро) сделать русский локальный ChatGPT

Medium

7 min

36K

Programming*Machine learning*Artificial IntelligenceNatural Language Processing*

Retrospective

Эта история началась в начале марта этого года. ChatGPT тогда был в самом расцвете. Мне в Telegram пришёл Саша Кукушкин, с которым мы знакомы довольно давно. Спросил, не занимаемся ли мы с Сашей Николичем языковыми моделями для русского языка, и как можно нам помочь.

И так вышло, что мы действительно занимались, я пытался собрать набор данных для обучения нормальной базовой модели, rulm, а Саша экспериментировал с существующими русскими базовыми моделями и кустарными инструктивными наборами данных.

После этого мы какое-то время продолжали какое-то время делать всё то же самое. Я потихоньку по инерции расширял rulm новыми наборами данных. Посчитав, что обучить базовую модель нам в ближайшее время не светит, мы решили сосредоточиться на дообучении на инструкциях и почти начали конвертировать то, что есть, в формат инструкций по аналогии с Flan. И тут меня угораздило внимательно перечитать статью.

+88

dimasklyarov Dec 9 2023 at 16:31

RAG (Retrieval Augmented Generation) — простое и понятное объяснение

Easy

8 min

20K

Natural Language Processing*

From sandbox

Краткое и понятное описание подхода RAG (Retrieval Augmented Generation) при работе с большими языковыми моделями.

gofixyourself Jun 2 2023 at 08:06

Ускоряем процесс разметки с помощью интерактивной сегментации

Medium

14 min

5.4K

Image processing*Machine learning*Artificial IntelligenceSberDevices corporate blog

Review

Всем привет! Сегодня поговорим про задачу интерактивной сегментации на основе кликов (click-based) и как она может ускорить процесс разметки данных для различных типов сегментации. Сегментационные модели применяются в распознавании событий и объектов в видео (Video Understanding), анализе медицинских снимков и в управлении беспилотных автомобилей, а также с их помощью реализована замена фона в приложениях для видеозвонков, бьютификация и автоматическая ретушь фотографий. SberDevices тоже активно разрабатывают свои решения для семантической сегментации – недавно мы рассказывали про задачу замены фона и бьютификацию в нашей статье, в которой представили новый большой opensource датасет для Portrait Segmentation и Face Parsing вместе с набором предобученных моделей.

+13

murat_apishev Mar 7 2023 at 08:52

Как мы улучшаем выделение интентов в наших продуктах

Medium

13 min

1.9K

Machine learning*Just AI corporate blogArtificial IntelligenceNatural Language Processing*

Machine learning season

Привет, Хабр! На связи Мурат Апишев, руководитель направления NLP R&D в Just AI. Одним из ключевых направлений компании является разработка инструментов для создания голосовых и чат-ботов. Задача создания классификатора интентов в таких проектах является краеугольным камнем, и в этой статье я бы хотел поделиться некоторыми апдейтами наших продуктов в этом направлении. Речь пойдет о внедрении моделей классификации и парафраза на основе трансформеров. Приятного чтения!

ZlodeiBaal Jun 15 2020 at 08:03

Самая сложная задача в Computer Vision

13 min

66K

Python*Image processing*Recognitor corporate blogMachine learning*Artificial Intelligence

Tutorial

Среди всего многообразия задач Computer Vision есть одна, которая стоит особняком. К ней обычно стараются лишний раз не притрагиваться. И, если не дай бог работает, — не ворошить.
У неё нет общего решения. Практически для каждого применения существующие алгоритмы надо тюнинговать, переобучать, или судорожно копаться в куче матриц и дебрях логики.

Статья о том как делать трекинг. Где он используется, какие есть разновидности. Как сделать стабильное решение.

+127

izakharkin Jul 10 2019 at 12:54

Вижу, значит существую: обзор Deep Learning в Computer Vision (часть 2)

18 min

37K

Programming*Image processing*Московский физико-технический институт (МФТИ) corporate blogMachine learning*Artificial Intelligence

Продолжаем постигать современную магию (компьютерное зрение). Часть 2 не значит, что нужно сначала читать часть 1. Часть 2 значит, что теперь всё серьёзно — мы хотим понять всю мощь нейросетей в зрении. Детектирование, трекинг, сегментация, оценка позы, распознавание действий… Самые модные и крутые архитектуры, сотни слоёв и десятки гениальных идей уже ждут вас под катом!

Читать дальше →

+27

vsabadazh Jul 16 2014 at 19:50

Теория относительности в реальном мире: GPS

4 min

133K

Global Positioning Systems*Ivideon corporate blog

Translation

Люди часто спрашивают меня: «Чем же так хороша теория относительности?». Обычно о ней думают как о некой абстрактной, мистической математической теории, никак не связанной с повседневной жизнью. На самом деле, это совсем не так.

Читать дальше →

+142

162

s_valuev Mar 16 2023 at 10:42

Сколько будет стоить ChatGPT для Google? Дайджест полезных текстов про ML и дата-аналитику

6 min

4.3K

IT Infrastructure*Selectel corporate blogBig Data*Machine learning*Data Engineering*

Находить информативные и полезные тексты про Machine Learning и работу с данными непросто. Еще сложнее — найти действительно стоящий контент. Меня зовут Стас, я развиваю продукты для аналитики данных в Selectel. Вместе с коллегами мы собрали годные статьи и видео, которые вам либо помогут в работе, либо как минимум развлекут.

Под катом — свежий landscape ML/AI/Data-сервисов, грамотно составленный список репозиториев для дата-сайентистов и пара кейсов с Хабра, которые вы могли пропустить. Часть материалов — на английском языке, и в рунете их не найти.

Читать дальше →

+44

Hydead Mar 6 2023 at 11:39

Как устроен виртуальный помощник для data-сервисов в «Магните»

6 min

2.2K

Big Data*Data storages*Magnit Tech corporate blog

Case

Привет! Меня зовут Александр, я главный системный аналитик в департаменте по работе с данными «Магнита». В этой статье рассказываю про виртуального помощника (чат‑бота), который помогает пользователям корпоративного хранилища данных (КХД) ориентироваться в данных и сервисах департамента и других подразделений, развивающих инструменты для аналитики.

Dr_Wut Feb 27 2023 at 12:38

VS Code, python, контейнеры — как обуздать эту триаду и разрабатывать внутри контейнера

Medium

16 min

35K

Python*Programming*RUVDS.com corporate blog

Tutorial

Как пользоваться VS Code в полную силу

Это небольшой туториал о настройке VS Code для работы с python. Здесь вы не увидите каких-то божественных откровений — тут будет просто мой опыт о том, как сделать свою работу/хобби немного комфортнее и почему я пришел именно к такой конфигурации.

Читать дальше →

+55

Greiv656 Feb 27 2023 at 02:21

Недорогие механические клавиатуры: 5 вариантов, на которые стоит обратить внимание в 2023 году

4 min

38K

Selectel corporate blogGadgetsComputer hardware

MSI Vigor GK50

Механические клавиатуры нравятся многим. При этом некоторые представители этого направления — настоящие произведения искусства, которые стоят весьма немало. Но есть и более-менее бюджетные варианты, которые и работают отлично, и стоят не очень много. Вот на них как раз и предлагаю обратить внимание.

Читать дальше →

+52

sterling239 Feb 20 2023 at 13:09

Как я сделал синтез своего голоса

Easy

12 min

29K

Machine learning*Artificial IntelligenceSoundVoice user interfaces*SberDevices corporate blog

Case

Всем привет! Меня зовут Гриша Стерлинг, я занимаюсь синтезом речи в SberDevices. Недавно прошла конференция AI Journey, где я рассказал, как сделал синтез своего голоса. За 15 минут выступления я не успел рассказать все, поэтому решил написать большой пост с деталями. Он будет интересен датасаентистам, людям из бизнеса и ai‑энтузиастам. Приглашаю всех под кат.

+25

Anna_sokol22 Feb 20 2023 at 11:00

Лучшая задача по программированию для собеседования

7 min

62K

Programming*Algorithms*Слёрм corporate blogIT career

Translation

Готовиться к собеседованию можно по-разному: смотреть ролики на YouTube, читать документацию, положиться на судьбу и тд. В большинстве случаев кандидатам предложат решить одну или несколько задач. В этой статье вас ждет подробный разбор реальной задачки, рекомендации к ее решению и объяснение ожиданий интервьюера от кандидатов.

+22

271

PatientZero Feb 16 2023 at 06:45

Пишем GPT в 60 строк NumPy (часть 1 из 2)

Medium

16 min

71K

Python*Algorithms*Mathematics*Machine learning*Artificial Intelligence

Tutorial

Translation

В этом посте мы начнём реализацию с нуля GPT всего в 60 строках numpy. Во второй части статьи мы загрузим в нашу реализацию опубликованные OpenAI веса обученной модели GPT-2 и сгенерируем текст.

Читать дальше →

+92

MoZZes Jul 14 2018 at 07:35

Запускаем LDA в реальном мире. Подробное руководство

12 min

34K

Python*Programming*Data Mining*Machine learning*Artificial Intelligence

Tutorial

From sandbox

Предисловие

На просторах интернета имеется множество туториалов объясняющих принцип работы LDA(Latent Dirichlet Allocation — Латентное размещение Дирихле) и то, как применять его на практике. Примеры обучения LDA часто демонстрируются на "образцовых" датасетах, например "20 newsgroups dataset", который есть в sklearn.

Особенностью обучения на примере "образцовых" датасетов является то, что данные там всегда в порядке и удобно сложены в одном месте. При обучении продакшн моделей, на данных, полученных прямиком из реальных источников все обычно наоборот:

Много выбросов.
Неправильная разметка(если она есть).
Очень сильные дисбалансы классов и 'некрасивые' распределения каких-либо параметров датасета.
Для текстов, это: грамматические ошибки, огромное кол-во редких и уникальных слов, многоязычность.
Неудобный способ харнения данных(разные или редкие форматы, необходимость парсинга)

Исторически, я стараюсь учиться на примерах, максимально приближенных к реалиям продакшн-действительности потому, что именно таким образом можно наиболее полно прочувстовать проблемные места конкретного типа задач. Так было и с LDA и в этой статье я хочу поделиться своим опытом — как запускать LDA с нуля, на совершенно сырых данных. Некоторая часть статьи будет посвящена получению этих самых данных, для того, чтобы пример обрел вид полноценного 'инженерного кейса'.

Читать дальше →

+10

djunka Feb 8 2023 at 10:32

Dusha: самый большой открытый датасет для распознавания эмоций в устной речи на русском языке

9 min

7.7K

Open source*Data Mining*Machine learning*Artificial IntelligenceSberDevices corporate blog

У нас в SberDevices очень сильная команда, разрабатывающая и развивающая решения в сфере речевых технологий. Раньше мы уже рассказывали о том, как обучить модель распознавания речи на открытых данных, и о том, как устроен наш синтез.

Однако, помимо распознавания и синтеза речи, мы развиваем технологии распознавания эмоций голоса для линейки наших умных устройств, а также для решений, позволяющих анализировать общение по телефону. Например, на этой технологии базируется наш новый продукт SaluteSpeech Insights, который автоматически оценивает эмоции клиента и оператора колл-центра по каждой произнесенной ими фразе, классифицирует все диалоги на позитивные, нейтральные и негативные, определяет более 300 различных речевых характеристик, а еще прогнозирует оценку CSI (Customer Satisfaction Index).

+17

virtual_explorer Feb 5 2023 at 13:29

Три уровня биохакинга. Как можно снова стать 18-летним за $2 млн в год

11 min

82K

FirstVDS corporate blogLifehacks for geeksHealth

Многие из нас хотели бы жить вечно. Или как минимум чувствовать себя здоровее. Но некоторые превращают это в цель своей жизни. Они тратят огромные деньги и усилия, чтобы изменить свою биологию, надеясь как-то оттянуть неизбежное, и вечно оставаться молодыми.

Понятно, что таким часто страдают спортсмены, для которых здоровье — это всё. Например, теннисист Новак Джокович, 35 лет, любит сидеть в камере под высоким давлением, чтобы обогатить свою кровь кислородом. Американский футболист Том Брэди в 45 лет принимает «антивозрастные» добавки, наносит на кожу увлажняющие порошки и катает по телу специальные вибрирующие шарики для улучшения гибкости мышц. А Криштиану Роналду выглядит моложе своих 38 лет за счет строгой диеты из яиц, батата и брокколи и регулярных «ванн» в своем личном кислородном резервуаре (гипербарическая оксигенотерапия).

Но среди наших братьев айтишников биохакинг в последние годы стал даже популярнее, чем среди спортсменов. Мол, научились взламывать игры и сайты, сможем взломать и свое тело! Чтобы начитить себе 140 лет жизни и чтоб никогда не болела спина!

Здесь, как обычно, есть три уровня: от начинающего хакера, впервые узнавшего, что такое root-доступ, и до бога-взломщика своего тела, на которого работает целый подпольный синдикат.

Давайте разберемся, на какие практические шаги пошли самые целеустремленные из нас, чтобы продлить свою жизнь. И сколько всё это стоит.

Осторожно, в посте много фото!

+42

257

edeshina Feb 2 2023 at 07:44

Типовое использование RabbitMQ

4 min

31K

High performance*System administration*Programming*IT Infrastructure*Слёрм corporate blog

Review

Алексей Барабанов, IT-директор «Хлебница» и спикер курса «RabbitMQ для админов и разработчиков», подготовил конспект о типовых архитектурных паттернах RabbitMQ. Из него вы узнаете, как настроить пайплайны обработки и реализовать очереди повторных попыток (в том числе, через механизм dead letter exchange).

+37

SmartEngines Feb 2 2023 at 10:45

MIDV-2020: как мы создали крупнейший датасет документов, удостоверяющих личность

8 min

3.8K

Algorithms*Image processing*Machine learning*Smart Engines corporate blogArtificial Intelligence

Retrospective

В этой статье мы хотим рассказать как мы создали крупнейший на данный момент набор искусственно созданных документов с большим разнообразием типов документов, их содержания и условий съемки. Каждый из документов имеет уникальные (хоть и выдуманные) значения текстовых полей, уникальную подпись и уникальные искусственно созданные лица.

2 3 4