Articles / Bookmarks / Profile of markhor / Habr

Вадим Марковцев @markhor

Head of Analytics

Profile Publications 19Comments 355Bookmarks 104

PatientZero May 2 2023 at 09:41

Красивый двоичный поиск без ветвления

Medium

6 min

15K

Programming*Algorithms*

Tutorial

Translation

Недавно я прочитал пост Алекса Мускара Beautiful Binary Search in D. В нём описывается алгоритм двоичного поиска под названием «алгоритм Шора». Я никогда не слышал о нём и его невозможно загуглить, но увидев алгоритм, я думал только об одном: «он без ветвления». Кто знал, что может существовать двоичный поиск без ветвления? Поэтому я занялся его трансляцией в алгоритм для итераторов C++, не требующий индексации на основе единицы или массивов фиксированного размера.

В GCC он более чем в два раза быстрее, чем std::lower_bound, который сам по себе — очень высококачественный двоичный поиск. Цикл поиска прост, а генерируемый ассемблерный код красив. Меня потрясло, что он существует, но им, похоже, никто не пользуется.

Читать дальше →

+42

phanerostroi_evidence Apr 26 2023 at 11:00

Умные рисовалки. Бесплатные аналоги MidJourney

15 min

29K

FirstVDS corporate blogGraphic design*Popular scienceArtificial Intelligence

▎Добрый день, дорогие хабражители!

Сегодня должно было выйти продолжение серии Анатомия игры, но у Вселенной оказались свои планы на мой компьютер. С другой стороны, где-то что-то убыло, где-то что-то прибыло. Так же можно сказать и о сегодняшнем объекте нашего внимания.

Читать дальше →

+38

lenant Mar 16 2023 at 17:51

Neural Network Optimization: океан в капле

Easy

14 min

12K

Server optimization*Image processing*Machine learning*Artificial IntelligenceDoubletapp corporate blog

Review

Machine learning season

Всех приветствую, меня зовут Антон Рябых, работаю в Doubletapp. Вместе с коллегой Данилом Гальпериным мы написали статью про важный этап в процессе обучения нейронных сетей и получения необходимых нам результатов — оптимизацию модели. Зачем нужно оптимизировать модель, если и так все работает? Но как только вы начнете разворачивать модель на устройстве, которое будет ее обрабатывать, перед вами встанет множество проблем.

Более крупные модели занимают больше места для хранения, что затрудняет их распространение. Более крупные модели требуют больше времени для работы и могут потребовать более дорогого оборудования. Это особенно важно, если вы создаете модель для приложения, работающего в реальном времени.

Оптимизация моделей направлена на уменьшение размера моделей при минимизации потерь в точности и производительности.

Методы оптимизации

• Pruning — устранение части параметров нейронной сети.
• Quantization — уменьшение точности обрабатываемых типов данных.
• Knowledge distillation — обновление топологии исходной модели до более эффективной, с уменьшенным количеством параметров и более быстрым выполнением.
• Weight clustering — сокращение количества уникальных параметров в весах модели.
• OpenVino, TensorRT — фреймворки, с помощью которых можно оптимизировать модели.

+28

koshkinoko Feb 1 2023 at 10:50

Как определить размер выборки для бутстрэпа старым дедовским способом

13 min

9.9K

Mathematics*Mobile App Analytics*Product Management*Statistics in ITLamoda Tech corporate blog

Всем привет! Меня зовут Рома Смирнов. Я работаю продуктовым аналитиком в Lamoda. Как и во многих других продуктовых компаниях, решения о том, раскатывать ли новую фичу, принимаются в Lamoda на основе данных, в частности на основе результатов A/B-тестирования.

Бутстрэп — один из популярных методов обработки результатов тестов. В этой статье я расскажу о том, каким образом можно определить размер выборки при расчете результатов A/B-теста с помощью бутстрэпа.

+28

matantsev Dec 11 2022 at 04:37

Self-Supervised Learning. Результаты и основные фреймворки

4 min

3.6K

Machine learning*Artificial Intelligence

Recovery Mode

На протяжении последних 3-х статей мы рассматривали исключительно сами подходы к обучению SSL и не смотрели на качество. Давайте это исправим и сравним методы между собой и с supervised решением. Также глянем на то, какие есть фреймворки, чтобы поднять SSL на своих данных.

Напомню, что это шестая и последняя статья из цикла про SSL в Computer Vision.

Узнать, наконец, чем хорош SSL

+13

d_garmashev Nov 14 2022 at 10:00

Приоритизация бэклога. Зачем нужны фреймворки и как работать по ICE — опыт менеджера с 5-летним стажем

11 min

8.6K

Development Management*Project management*Product Management*

Technotext 2022

На собеседованиях продакт-менеджеров, продакт-оунеров и скрам-мастеров любят спрашивать про фреймворки приоритизации и опыт работы с ними. Но реальной практики в этой области в статьях на Хабре изложено не так много — в тех текстах, которые попадались мне в последнее время, не хватает глубины именно для ICE.

Постараюсь восполнить этот пробел. Расскажу, как посчитать ICE в деньгах или баллах, как снизить предвзятость оценки и с чего начать, когда у вас за спиной нет команды аналитиков, нацеленных только на расчет фич. Под конец поговорим о том, как все-таки заставить приоритизацию работать и вылавливать из массы запланированных фич те самые низко висящие фрукты, которые дадут большой профит.

+18

arch1baald Sep 14 2022 at 17:11

Шерудим под капотом Stable Diffusion

10 min

32K

Image processing*Machine learning*Artificial IntelligenceNatural Language Processing*

Tutorial

Вероятно вы уже слышали про успехи нейросетей в генерации картинок по текстовому описанию.

Я решил разобраться, и заодно сделать небольшой туториал, по архитектуре модели Stable Diffusion. Сегодня мы не будем глубоко погружаться в математику и процесс тренировки. Вместо этого сфокусируемся на применении и устройстве основных компонент: UNet, VAE, CLIP.

+81

1shaman Jun 8 2022 at 11:00

Кто круче rsync? Интересные алгоритмы для синхронизации данных

7 min

22K

System administration*Algorithms*FirstVDS corporate blogBackup*Data compression*

Тридж, автор rsync

Что может быть приятнее, чем минимизировать объём бэкапа или апдейта? Это не просто экономия ресурсов, а чистая победа интеллекта над энтропией Вселенной. Исключительно силой разума мы уменьшаем размер файла, сохраняя прежний объём информации в нём, тем самым уменьшая поток фотонов в оптоволокне и снижая температуру CPU. Реальное изменение физического мира силой мысли.

Если без шуток, то все знают rsync — инструмент для быстрой синхронизации файлов и каталогов с минимальным трафиком, который пришёл на замену rcp и scp. В нём используется алгоритм со скользящим хешем, разработанный австралийским учёным, программистом и хакером Эндрю Триджеллом по кличке Тридж (на фото).

Алгоритм эффективный, но не оптимальный.

Читать дальше →

+59

SITibekin Apr 15 2022 at 17:49

Как избежать 10 частых ошибок в настройке NGINX

17 min

52K

Nginx*Server Administration*DevOps*Nixys corporate blog

Translation

Помогая пользователям NGINX с разрешением проблемных ситуаций, мы поняли, что большинство из них часто совершает одни и те же ошибки конфигурации. Более того, подобные ситуации вполне могут возникнуть даже у самих инженеров NGINX! В этой статье рассмотрим 10 наиболее распространенных ошибок и объясним как их исправить.

Недостаточное количество файловых дескрипторов;
Директива error_log off;
Отсутствие keepalive-соединения с вышестоящими серверами;
Упущение механизмов наследования директив;
Директива proxy_buffering;
Неправильное использование директивы if;
Чрезмерные проверки работоспособности;
Незащищенный доступ к метрикам;
Использование ip_hash, когда весь трафик поступает из одного и того же блока /24 CIDR;
Игнорирование преимуществ вышестоящих групп.

Читать дальше →

+70

Aleron75 Apr 5 2022 at 12:00

8 ошибок, из-за которых ты проиграешь в соревновательном Data Science

8 min

16K

Algorithms*Machine learning*RUVDS.com corporate blogData Engineering*

Привет, чемпион!

Если ты читаешь этот пост, значит, тебе стало интересно, не допускаешь ли этих ошибок ты?! Почти уверен, что ты допускал эти ошибки хотя бы раз в жизни. Мы не застрахованы от совершения ошибок, такова наша человеческая натура — ошибаться для нас естественно. Однако, я постараюсь уберечь тебя от тех ошибок, которые совершал сам или замечал у других.

Так вышло, что за время участия в чемпионатах по соревновательному анализу данных я достаточно часто бывал в призовых местах. Однако, бывали случаи, когда я лишался призовых по глупости или неосторожности. Рассказываю по порядку.

Читать дальше →

+55

Kilor Jan 27 2020 at 17:33

PostgreSQL Antipatterns: ударим словарем по тяжелому JOIN

6 min

20K

PostgreSQL*SQL*Algorithms*Database Administration*Тензор corporate blog

Продолжаем серию статей, посвященных исследованию малоизвестных способов улучшения производительности «вроде бы простых» запросов на PostgreSQL:

Не подумайте, что я так сильно не люблю JOIN… :)

Но зачастую без него запрос получается ощутимо производительнее, чем с ним. Поэтому сегодня попробуем вообще избавиться от ресурсоемкого JOIN — с помощью словаря.

Читать дальше →

Tzimie Jan 31 2022 at 13:02

Как не надо индексировать

5 min

37K

MySQL*PostgreSQL*SQL*Microsoft SQL Server*

Развитие происходит по спирали: когда-то люди не умели правильно индексировать, потом (в основном) научились, потом пришли noSQL и все снова забыли знание древних. Что вы будете делать, когда последние из старых DBA отплывут в Валинор?

Снова и снова и сталкиваюсь с полным набором антипаттернов индексирования. Я их перечислю, но! Для каждого антипаттерна есть исключение, когда именно это и стоит делать. Поэтому кликбейтно сформулированное правило верно в 95% случаях, но если вы хотите копнуть глубже, то прочитайте про исключения.

И в конце полезные скрипты для MSSQL, Postgres и MySQL.

+44

aio350 Aug 27 2021 at 13:42

JavaScript: 2 интересных примера практического использования Intersection Observer API

20 min

14K

Website development*JavaScript*Programming*Timeweb Cloud corporate blog

Привет, друзья!

На днях мне посчастливилось заниматься решением 2 несложных, но довольно интересных задач на чистом JavaScript (из-за React чуть не забыл, как это делается). В процессе решения этих задач никто не пострадал, напротив, все остались довольны. Поэтому я решил поделиться результатами с сообществом.

Обратите внимание: данная статья рассчитана, преимущественно, на начинающих разработчиков и вряд ли покажется интересной опытным, хотя, смею надеяться, что и последние не пожалеют потраченного времени, если прочитают ее до конца.

Введение

Итак, задачи были следующими:

Реализовать навигацию по разделам сайта с визуальным переключением индикатора текущего местонахождения пользователя и возможностью переходить к определенному разделу по клику. Сама навигация согласно макету должна была выглядеть так:

Реализовать "ленивую" (отложенную, lazy) загрузку медиаресурсов (изображений, аудио и видео), поскольку те же изображения даже после сжатия с помощью gulp-imagemin весили (и весят, потому что они никуда не делись) неприличные 50 Мб и загружались при запуске приложения (больше они себя так не ведут).

Читать дальше →

kmoseenk Oct 26 2021 at 15:57

Практическое руководство по методу максимального правдоподобия

4 min

24K

Mathematics*Machine learning*OTUS corporate blog

Translation

Вам наверняка доводилось когда-либо в своей жизни принимать решение о покупке, основываясь на отзывах о товарах. Как социальным существам нам свойственно покупать вещи, которые рекомендуют другие покупатели.

Недавно, в поисках новых наушников, я просмотрел все товары, которые имеют оценку 5 звезд. Меня поразило насколько сложно принять решение о покупке, основываясь только на отзывах покупателей. Мне пришло в голову взглянуть на отзывы товаров с точки зрения статистики.

В этой статье я объясняю метод оценки максимального правдоподобия на примере сравнения двух товаров, используя гипотетические оценки, полученные на основе мнений людей о товарах.

PashaPodolsky Mar 21 2021 at 10:56

Устройство поисковых систем: базовый поиск и инвертированный индекс

24 min

24K

Search engines*Programming*System Analysis and Design*Algorithms*Rust*

Под капотом почти каждой поисковой строки бьется одно и то же пламенное сердце — инвертированный индекс. Именно инвертированный индекс принимает текстовые запросы и возвращает пользователю список документов, а пользователь смотрит на всё это дело и радуется котиками, ответам с StackOverflow и страничкам на вики.

В статье описано устройство поиска, инвертированного индекса и его оптимизаций с отсылками к теории. В качестве подопытного кролика взят Tantivy — реализация архитектуры Lucene на Rust. Статья получилась концентрированной, математикосодержащей и несовместимой с расслабленным чтением хабра за чашкой кофе, осторожно!

Читать дальше →

+37

forgotten Jan 4 2021 at 10:48

Ещё 8 правил проектирования API

10 min

18K

Designing and refactoring*API*

Используйте глобально уникальные идентификаторы. Клиент всегда должен знать полное состояние системы. Избегайте двойных отрицаний…

+37

itglobalcom Nov 23 2020 at 15:24

Как получить новый сертификат инженера по машинному обучению от Google Cloud

3 min

5.8K

Machine learning*ГК ITGLOBAL.COM corporate blog

Недавно Google представила новый сертификат, который подтверждает, что его обладатель умеет проектировать, создавать и выпускать модели машинного обучения с использованием облачных технологий Google Cloud — Google Cloud Professional Machine Learning Engineer. Также подразумевается, что сертифицированный инженер знает все проверенные модели и методы машинного обучения.

Читать дальше →

usix Sep 3 2020 at 15:54

AWS — сколько нужно сервисов, чтобы поднять веб-приложение?

4 min

17K

Amazon Web Services*

From sandbox

Так получилось, что до 2020 года я не имел дело с облаками. Когда же, наконец, углубился в эту тему, то немного потерялся от обилия сервисов, предлагаемых в AWS.

Необходимо было создать приложение с такими фичами:

Авторизацией через facebook или google.
Возможностью загрузки и отображения медиа-файлов.
Получением событий с сервера в реальном времени.

В этой статье описаны сервисы, которые понадобились мне для реализации проекта и ощущения от процесса.

Читать дальше →

+25

AlexeyNadezhin Aug 4 2020 at 21:06

Аккумуляторы против батареек

3 min

97K

LampTest corporate blogEnergy and batteries

Номинальное напряжение щелочных батареек 1.5 вольта, а номинальное напряжение NiMh-аккумуляторов 1.2 вольта, из-за этого многие думают, что аккумуляторы могут не работать в устройствах, предназначенных для работы от батареек. Я изучил, как меняется напряжение на батарейках и аккумуляторах при разрядке в разных режимах.

Для теста были использованы хорошие батарейки Lexman и аккумуляторы, использующие технологию Eneloop — Fujitsu AA 2500 mah и IKEA LADDA AAA 900 mAh.

Читать дальше →

+107

134

m1rko Jun 30 2020 at 11:16

Вероятно, хватит рекомендовать «Чистый код»

13 min

174K

Programming*Java*Reading room

Translation

Возможно, мы никогда не сможем прийти к эмпирическому определению «хорошего кода» или «чистого кода». Это означает, что мнение одного человека о мнении другого человека о «чистом коде» обязательно очень субъективно. Я не могу рассматривать книгу Роберта Мартина «Чистый код» 2008 года с чужой точки зрения, только со своей.

Тем не менее, для меня главная проблема этой книги заключается в том, что многие примеры кода в ней просто ужасны.

Читать дальше →

+137

427

2 3 4 5