Статьи / Закладки / Профиль alekseyefremov / Хабр

Как стать автором

Алексей Ефремов @alekseyefremov

Пользователь

Профиль Публикации Комментарии 22Закладки 265

Eltar007 26 мар 2022 в 15:43

Как создать telegram бот на C# быстро?

6 мин

144K

Туториал

Из песочницы

Как создать telegram bot на C# быстро?

В этой статье мы рассмотрим заготовку для создания telegram бота на C#. В связи с последними обновлениями TelegramBotAPI, большая часть удачных с моей точки зрения публикаций на эту тему несколько устарело. Потому предлагаю разобраться в этой теме.

Читать далее

+16

Artilirium 20 мар в 13:22

Вы за это заплатите! Цена Чистой Архитектуры. Часть 1

Средний

11 мин

23K

Блог компании VKРазработка под Android*

Всем привет, меня зовут Артемий, я работаю старшим Android-разработчиком в команде пользовательского профиля в RuStore. Мой опыт в индустрии уже 8 лет. За это время я успел поработать в разных проектах и компаниях. У меня был опыт работы в проекте, в котором было свыше 300 модулей и больше 60 Android-разработчиков. Такие условия заставляют задуматься о масштабируемости на принципиально ином уровне.

Сегодня я расскажу о способах обеспечения масштабируемости проекта и как этому может навредить неправильное восприятие Чистой Архитектуры (далее — ЧА). Предупреждаю сразу, это лонгрид в двух частях!

Читать далее

+58

Bacchus777 27 мар в 21:57

Zigbee шлюз для счетчиков Меркурий

1 мин

12K

Умный дом

Из песочницы

Давно удивлялся, почему не смотря на распространенность счетчиков Меркурий и возможность съема с них показаний через RS-485, на рынке DIY устройств не было Zigbee шлюза для них. Этот пробел я решил восполнить самостоятельно.

Читать далее

+52

Zhbert 28 мар в 09:30

Настраиваем CI/CD с GitHub Actions и werf: инструкция для новичков

Простой

12 мин

7.5K

Системное администрирование*Системы сборки*DevOps*Блог компании ФлантKubernetes*

Туториал

В этой статье мы рассмотрим, как настроить пайплайн CI/CD в GitHub: подготовим репозиторий, зальём туда приложение, создадим файлы конфигурации GitHub Actions, в которых опишем, как собирать наше приложение и деплоить его в кластер Kubernetes, развёрнутый под управлением Deckhouse Kubernetes Platform. Деплоить будем с помощью Open Source CLI-утилиты werf. Она помогает организовать полный цикл доставки приложений в Kubernetes и рассматривает Git как единый источник истины для состояния развёрнутого приложения. Статья рассчитана на тех, кто только начинает свой путь в мире облаков и кластеризации.

Читать далее

+26

jtjag 12 мар в 10:00

Как сайты обнаруживают ботов по TLS

Средний

3 мин

6K

Сетевые технологии*Открытые данные*Реверс-инжиниринг*

Из песочницы

Порой случается так что несмотря на то что мы в точности повторяем запрос к сайту из своего любимого HTTP клиента в ответ мы получаем ошибку. Но ведь в браузере запрос проходит! В чём же дело? В этой статье мы с этим разберемся!

Читать далее

+21

muxeu 28 дек 2023 в 13:31

Многорукие бандиты в задаче ритейла

9 мин

3.1K

Алгоритмы*Математика*Машинное обучение*Блог компании X5 Tech

Обзор

В настоящее время набирают популярность модели Reinforcement Learning для решения прикладных задач бизнеса. В этой статье мы рассмотрим подмножество этих моделей, а именно многоруких бандитов (multi-armed bandits). Также мы:

- обсудим, какие задачи теоретически могут быть решены с помощью этих моделей;
- рассмотрим некоторые популярные реализации моделей многоруких бандитов;
- опишем симулятор ценообразования, применим эти алгоритмы в нём и сравним их эффективность.

Читать далее

+8

murat_apishev 12 дек 2023 в 16:25

О методах позиционного кодирования в Transformer

Сложный

10 мин

7K

Машинное обучение*Искусственный интеллектNatural Language Processing*

Обзор

✏️ Технотекст 2023

Обзор методов кодирования позиций токенов в нейросетевых моделях Transformer с упором на обработку длинных текстов. Для тех, кто учит и использует LLM, и для всех интересующихся.

Читать далее

+24

rebuilder 19 ноя 2023 в 16:17

Коммивояжёр за полином*

Сложный

12 мин

4.2K

Высокая производительность*Open source*Python*Алгоритмы*

Если вам нужно решить задачу коммивояжёра, то нет ничего проще. Нужно просто взять квантовый компьютер с числом кубитов не меньшим числа вершин рассчитываемого графа…

Нет под рукой квантового компьютера? Не беда, читайте дальше и узнаете, как можно решать данную задачу на классическом компьютере за полиномиальное время* от числа вершин.

Читать далее

+12

murat_apishev 13 ноя 2023 в 10:56

«ИИ без границ»: как научить Transformer обрабатывать длинные тексты

Сложный

12 мин

7.3K

Машинное обучение*Искусственный интеллектNatural Language Processing*

Обзор

Разносторонний системный рассказ о том, какими способами можно научить модель работать с длинными последовательностями. Для специалистов, занимающихся обучением LLM, и всех, кто хочет разобраться в теме.

Читать далее

+30

DataSecrets 10 ноя 2023 в 14:07

RecTools – OpenSource библиотека для рекомендательных систем

Средний

8 мин

7.7K

Python*Big Data*Машинное обучение*Искусственный интеллект

Из песочницы

Если вы когда-либо работали с рекомендательными системами, то знаете, что все необходимые и самые часто используемые инструменты разбросаны по разным библиотекам. Более того, каждая из таких библиотек имеет много уникальных особенностей, к которым нужно приноровиться (например, разные форматы данных на вход).

Выходит, что чтобы просто протестировать на своей задаче базовый пул подходов, нужно немало помучиться. Получается довольно грустно.

К такому же выводу, видимо, пришли ребята из МТС – и выкатили в опенсурс RecTools. Это библиотека, где собраны самые часто используемые модели для рекомендательных систем. Также с её помощью можно максимально просто и быстро оценивать необходимые метрики.

Давайте же посмотрим, что RecTools умеет, и как с этим работать.

Читать далее

+13

Saitcraft77 28 сен 2023 в 08:26

Вставай, Наташа, «Яндекс» все уронил. Или что делать, если «Директ» перестал приносить заявки?

Простой

11 мин

2.7K

Повышение конверсии*Поисковая оптимизация*

Recovery Mode

Рекламная кампания хорошо работала несколько месяцев и вдруг "сломалась"? Лидов стало меньше или они пропали совсем. Возможно, количество заявок изменилось не сильно, но они стали дороже и рекламного бюджета уже не хватает. К сожалению, сегодня такая проблема — не редкость. Многие специалисты по контексту жалуются на нестабильность Яндекс Директа.

Читать далее

-2

Saitcraft77 22 сен 2023 в 09:41

Лиды с Директа в 2–3 дешевле: лайфхак при настройке Мастеров кампаний

4 мин

1.4K

Интернет-маркетинг*Контекстная реклама*

Два года назад Яндекс выкатил Мастер кампаний. Споры по эффективности МК не утихают до сих пор, звучат негативные оценки. Мы тоже были настроены скептически, но при тесте различных форматов нашли методику работы с МК. Она позволила уменьшить стоимость лида в 2–3 раза. Расскажем, как нам это удалось.

Читать далее

+2

Mentalitet 18 сен 2023 в 14:17

Reinforcement learning для оптимизации цен в ритейле

Средний

14 мин

3.2K

Python*Алгоритмы*Машинное обучение*

Динамическое ценообразование является современным подходом к ценообразованию в ритейле. Оно напрямую связано с моделированием спроса, что позволяет проводить оптимизацию цен на будущий период. В этой задаче популярным решением является использование машинного обучения, однако, есть мнение, что Reinforcement Learning (а именно, многорукие бандиты), способны выступить сильной альтернативой моделям ML для динамического ценообразования. Но так ли это на самом деле? Попробуем разобраться в этой статье, держа в уме практические аспекты.

Читать далее

+5

Takagi 7 сен 2023 в 12:11

Как (быстро) сделать русский локальный ChatGPT

Средний

7 мин

36K

Программирование*Машинное обучение*Искусственный интеллектNatural Language Processing*

Ретроспектива

Эта история началась в начале марта этого года. ChatGPT тогда был в самом расцвете. Мне в Telegram пришёл Саша Кукушкин, с которым мы знакомы довольно давно. Спросил, не занимаемся ли мы с Сашей Николичем языковыми моделями для русского языка, и как можно нам помочь.

И так вышло, что мы действительно занимались, я пытался собрать набор данных для обучения нормальной базовой модели, rulm, а Саша экспериментировал с существующими русскими базовыми моделями и кустарными инструктивными наборами данных.

После этого мы какое-то время продолжали какое-то время делать всё то же самое. Я потихоньку по инерции расширял rulm новыми наборами данных. Посчитав, что обучить базовую модель нам в ближайшее время не светит, мы решили сосредоточиться на дообучении на инструкциях и почти начали конвертировать то, что есть, в формат инструкций по аналогии с Flan. И тут меня угораздило внимательно перечитать статью.

Читать далее

+88

Sivchenko_translate 2 авг 2023 в 17:53

Как сделать контекстное окно на 100K в большой языковой модели: обо всех фокусах в одном посте

17 мин

6.9K

GPGPU*Машинное обучение*Искусственный интеллектПроцессорыNatural Language Processing*

Перевод

От переводчика: выражаю огромную искреннюю благодарность Дмитрию Малову @malovdmitrijза консультации по ходу этого перевода, помощь в подборе формулировок, пояснение рисунков и незаменимую человеческую поддержку.

tldr; в статье рассмотрены приёмы, позволяющие ускорить обучение больших языковых моделей (LLM) и нарастить в них логический вывод. Для этого нужно использовать большое контекстное окно, в котором умещается до 100K входных токенов. Вот эти приёмы: ALiBi с подмешиванием в вектор позиции слова в последовательности (positional embedding), разреженное внимание (Sparse Attention), мгновенное внимание (Flash Attention), многозапросное внимание, условные вычисления и GPU A100 на 80 ГБ.

Читать далее

+21

Hidadmin 2 авг 2023 в 16:00

Генерация текстов, кластеризация и определение E-A-T и коммерческости запросов на нейросети OpenAI (GPT-3)

Средний

19 мин

2.4K

API*Машинное обучение*Интернет-маркетинг*Поисковая оптимизация*Искусственный интеллект

Туториал

Всем привет! Сегодня я хочу показать 5 примеров использования искусственного интеллекта (ИИ) на нейросети OpenAI (GPT-3) применительно к SEO: это кластеризация поисковых запросов, определение степени коммерциализации запросов, оценка качества контента Google E-A-T, генерация статей по ключевым словам и извлечение сущностей из текста.

Все это делается с регистрацией, СМС и только через VPN, но, в отличии от классических способов, применяемых сеошниками – без использования поисковых систем. Только OpenAI, только хардкор!

Читать далее

+2

WildChlamydia 2 авг 2023 в 13:05

MiVOLO: новая State-of-the-Art нейросеть с открытым исходным кодом для определения пола и возраста по фотографии

Средний

12 мин

4.6K

Обработка изображений*Машинное обучение*Научно-популярноеИскусственный интеллектБлог компании SberDevices

Кейс

Привет, Хабр!

Хочу рассказать вам нашу историю о том, как изначально рутинная рабочая задача закончилась созданием открытой state-of-the-art нейросети, научной работой и новым датасетом.

Читать далее

+24

ru_vds 10 мая 2023 в 12:00

RSync на стероидах с поддержкой Windows

Средний

5 мин

28K

Системное администрирование*Алгоритмы*Резервное копирование*Сжатие данных*Блог компании RUVDS.com

На Хабре периодически рассказывают о новых инструментах для синхронизации данных. Это интересная тема. Такие программы используются:

для синхронизации файлов на разных устройствах,
дедупликации,
резервного копирования,
сжатия.

Малейшая оптимизация даёт экономию трафика, места, ускоряет синхронизацию и общую производительность любых систем. Всё, везде и сразу. В эпоху веб-приложений и клиент-серверной архитектуры со множеством девайсов, которые работают в единой инфраструктуре, синхронизация — Святой Грааль, одна из базовых технологий в компьютерной области.

Кроме того, инструменты синхронизации интересны с алгоритмической точки зрения. Любопытно, как люди умудряются оптимизировать базовые алгоритмы типа rsync, которые вроде бы работают идеально. Но нет, всегда можно придумать что-то получше.

Читать дальше →

+62

Digital_League 16 июн 2023 в 12:39

Как извлечь больше данных о посетителях сайта через «Яндекс.Метрику» при помощи Python и с минимумом библиотек

8 мин

8.1K

Python*IT-инфраструктура*Хранение данных*Блог компании Лига Цифровой Экономики

Меня зовут Андрей Устьянцев, я ведущий аналитик направления Big Data в Лиге Цифровой Экономики. Эту статью я задумал как вторую в цикле материалов (первую об улучшении лендинга на основе метрик вы можете прочитать здесь). Сам текст будет полезен аналитикам, которым необходим более глубокий анализ данных о посетителях сайта, чем предоставляет стандартный интерфейс «Яндекс.Метрики». Или тем, кто хочет объединить данные из «Метрики» с другими источниками (например, из CRM) для визуализации, поиска инсайтов, проверки продуктовых гипотез etc.

Читать далее

+3

Boomburum 19 апр 2023 в 17:20

Новый тип публикаций на Хабре

4 мин

25K

HabrБлог компании Хабр

Привет, друзья! Открываем новую главу в истории Хабра и представляем новый тип публикаций: посты.

Читать далее

+136

1

2 3 ...