Articles / Bookmarks / Profile of averkij / Habr

Сергей Аверкиев @averkij

ML Engineer

Profile Publications 24Comments 388Bookmarks 59

kucev Dec 13 2021 at 15:04

Зачем вам нужно использовать активное обучение при обучении нейронных сетей

6 min

6.8K

Data Mining*Image processing*Big Data*Machine learning*Artificial Intelligence

Translation

Часто разметка данных оказывается самой серьёзной преградой для машинного обучения — сбор больших объёмов данных, их обработка и разметка для создания достаточно производительной модели могут занимать недели или даже месяцы. Активное обучение позволяет обучать модели машинного обучения на гораздо меньшем количестве размеченных данных. Лучшие компании в сфере ИИ, например, Tesla, уже используют активное обучение. Мы считаем, что и вам тоже оно необходимо.

В этом посте мы расскажем, что такое активное обучение, рассмотрим инструменты для его практического применения и продемонстрируем, как мы сами упрощаем внедрение активного обучения в процесс NLP.

Читать дальше →

snakers4 Jun 21 2021 at 10:25

Сжимаем трансформеры: простые, универсальные и прикладные способы cделать их компактными и быстрыми

6 min

5.2K

Image processing*Big Data*Machine learning*Natural Language Processing*

Tutorial

transformer_press

Сейчас в сфере ML постоянно слышно про невероятные "успехи" трансформеров в разных областях. Но появляется все больше статей о том, что многие из этих успехов мягко говоря надуманы (из недавнего помню статью про пре-тренировку больших CNN в компьютерном зрении, огромную MLP сетку, статью про деконструкцию достижений в сфере трансформеров).

Если очень коротко просуммировать эти статьи — примерно все более менее эффективные нерекуррентные архитектуры на схожих вычислительных бюджетах, сценариях и данных будут показывать примерно похожие результаты.

Тем не менее у self-attention модуля есть ряд плюсов: (i) относительная простота при правильной реализации (ii) простота квантизации (iii) относительная эффективность на коротких (до нескольких сотен элементов) последовательностях и (iv) относительная популярность (но большая часть имплементаций имеет код раздутый раз в 5).

Также есть определенный пласт статей про улучшение именно асимптотических свойств self-attention модуля (например Linformer и его аналоги). Но несмотря на это, если например открыть список пре-тренированных языковых моделей на основе self-attention модулей, то окажется, что "эффективных" моделей там буквально пара штук и они были сделаны довольно давно. Да и последовательности длиннее 500 символов нужны не очень часто (если вы не Google).

Попробуем ответить на вопрос — а как существенно снизить размер и ускорить self-attention модуль и при этом еще удовлетворить ряду production-ready требований:

Читать дальше →

+19

Atmyre Nov 26 2021 at 12:21

Inductive bias и нейронные сети

17 min

17K

Image processing*Machine learning*Artificial Intelligence

From sandbox

В этой статье я расскажу, что такое inductive bias, зачем он нужен и где встречается в машинном обучении. Спойлер: везде. Любая нейросеть имеет inductive bias (даже та, что в человеческом мозге, хе-хе)

Также вы узнаете:

- почему inductive bias — это очень хорошо

- способы внедрить inductive bias в модели машинного обучения

- какой inductive bias в сверточных нейросетях и как успех архитектуры Image Transformer связан с inductive bias

Ну что, поехали:

+41

Kwent Nov 17 2021 at 12:36

Окрашивание изображений

6 min

5.9K

Image processing*Machine learning*NtechLab corporate blog

Technotext 2021

Статья про окрашивание изображений на основе работы Color2Embed: Fast Exemplar-Based Image Colorization using Color Embeddings. Рассмотрим, как переносить цвет с одной картинки на другую с помощью смеси из U-Net и StyleGAN v2.

+21

kxx Feb 5 2016 at 04:02

Как уменьшить количество измерений и извлечь из этого пользу

10 min

50K

Programming*Data Mining*Big Data*R*Machine learning*

Сначала я хотел честно и подробно написать о методах снижения размерности данных — PCA, ICA, NMF, вывалить кучу формул и сказать, какую же важную роль играет SVD во всем этом зоопарке. Потом понял, что получится текст, похожий на вырезки из опусов от Mathgen, поэтому количество формул свел к минимуму, но самое любимое — код и картинки — оставил в полном объеме.

Читать дальше →

+25

mr-pickles Oct 4 2021 at 14:24

Перплексия в языковых моделях

10 min

17K

Programming*Algorithms*Mathematics*Wunder Fund corporate blogNatural Language Processing*

Translation

В этом материале я хочу сделать подробный обзор такого понятия, как «перплексия» («коэффициент неопределённости»), так как оно применяется в обработке текстов на естественном языке (Natural Language Processing, NLP). Я расскажу о двух подходах, которые обычно используются для определения этого понятия, и о тех идеях, которые лежат в основе этих подходов.

+27

Firemoon Sep 18 2021 at 11:30

Разбираем редкого зверя от Nvidia — DGX A100

7 min

35K

High performance*IT Infrastructure*Selectel corporate blogComputer hardwareThe future is here

Крупные IT-компании располагают дорогими «игрушками», которые скрыты от взоров большинства пользователей. Сегодня мы приоткроем завесу тайны и расскажем про систему, которая оптимизирована для работы с искусственным интеллектом.

Задачи ИИ предъявляют высокие требования к вычислительным и сетевым ресурсам, поэтому наш сегодняшний «гость» приятно порадует своей конфигурацией. Встречайте: NVIDIA DGX A100.

Читать дальше →

+67

cointegrated Jun 10 2021 at 02:16

Маленький и быстрый BERT для русского языка

9 min

54K

Semantics*Programming*Data Mining*Machine learning*Natural Language Processing*

Technotext 2021

BERT – нейросеть, способная неплохо понимать смысл текстов на человеческом языке. Впервые появившись в 2018 году, эта модель совершила переворот в компьютерной лингвистике. Базовая версия модели долго предобучается, читая миллионы текстов и постепенно осваивая язык, а потом её можно дообучить на собственной прикладной задаче, например, классификации комментариев или выделении в тексте имён, названий и адресов. Стандартная версия BERT довольно толстая: весит больше 600 мегабайт, обрабатывает предложение около 120 миллисекунд (на CPU). В этом посте я предлагаю уменьшенную версию BERT для русского языка – 45 мегабайт, 6 миллисекунд на предложение. Она была получена в результате дистилляции нескольких больших моделей. Уже есть tinybert для английского от Хуавея, есть моя уменьшалка FastText'а, а вот маленький (англо-)русский BERT, кажется, появился впервые. Но насколько он хорош?

+57

MaxRokatansky May 20 2021 at 18:40

Топ 6 библиотек Python для визуализации: какую и когда лучше использовать?

13 min

63K

Python*Machine learning*OTUS corporate blog

Translation

Если вы только собираетесь начать работу с визуализацией в Python, количество библиотек и решений вас определенно поразит:

- Matplotlib

- Seaborn

- Plotly

- Bokeh

- Altair

- Folium

Но какую из этих библиотек лучше выбрать для визуализации DataFrame? Некоторые библиотеки имеют больше преимуществ для использования в некоторых конкретных случаях. В этой статье приведены плюсы и минусы каждой из них. Прочитав эту статью, вы будете разбираться в функционале каждой библиотеки и будете способны подбирать для ваших потребностей оптимальную.

+19

nalgeon Mar 17 2021 at 12:32

SQLite — не игрушка

7 min

79K

Programming*SQL*SQLite*

Рассказываю, почему SQLite отлично подойдет вам в повседневной работе. И неважно, разработчик вы, аналитик, тестировщик, админ или продакт-менеджер.

+235

ntz Mar 4 2011 at 20:53

Фонетические алгоритмы

9 min

44K

Algorithms*

From sandbox

Фонетические алгоритмы сопоставляют двум словам со схожим произношением одинаковые коды, что позволяет осуществлять сравнение и индексацию множества таких слов на основе их фонетического сходства.

Часто довольно трудно найти в базе нетипичную фамилию, например:

— Леха, поищи в нашей базе Адольфа Швардсенеггера,
— Шворцинегира? Нет такого!

В этом случае использование фонетических алгоритмов (особенно в сочетании с алгоритмами нечеткого сопоставления) может значительно упростить задачу.

Такие алгоритмы очень удобно использовать при поиске в базах по спискам людей, в программах проверки орфографии. Зачастую они используются совместно с алгоритмами нечеткого поиска (которые, несомненно, заслуживают отдельной статьи), предоставляя пользователям удобный поиск по именам и фамилиям в различных базах данных, списках сотрудников и так далее.

В этой статье я рассмотрю наиболее известные алгоритмы, такие как Soundex, Daitch-Mokotoff Soundex, NYSIIS, Metaphone, Double Metaphone, русский Metaphone, Caverphone.

Читать дальше →

+152

host_m Jan 21 2021 at 11:55

Трюк с XOR для собеседований и не только

8 min

103K

Programming*Algorithms*VDSina.ru corporate blog

Translation

Есть целая куча популярных задач для собеседований, которые можно решить одним из двух способов: или логичным применением стандартных структур данных и алгоритмов, или использованием некоторых свойств XOR сложным для понимания способом.

Хоть и непривычно ожидать решения с XOR на собеседованиях, довольно забавно разбираться, как они работают. Оказывается, все они основаны на одном фундаментальном трюке, который я постепенно раскрою в этом посте. Далее мы рассмотрим множество способов применения этого трюка с XOR, например, при решении популярной задачи с собеседований:

Дан массив из n — 1 целых чисел, находящихся в интервале от 1 до n. Все числа встречаются только один раз, за исключением одного числа, которого нет. Найдите отсутствующее число.

Разумеется, существует множество прямолинейных способов решения этой задачи, однако есть и довольно неожиданный, в котором применяется XOR.

Читать дальше →

+80

104

dyakimov Jan 14 2021 at 10:11

Лучшие практики при написании безопасного Dockerfile

9 min

30K

Information Security*System administration*DevOps*Swordfish Security corporate blog

В данной статье мы рассмотрим небезопасные варианты написания собственного Dockerfile, а также лучшие практики, включая работу с секретами и встраивание инструментов статического анализа. Тем не менее для написания безопасного Dockerfile наличия документа с лучшими практиками мало. В первую очередь требуется организовать культуру написания кода. К ней, например, относятся формализация и контроль процесса использования сторонних компонентов, организация собственных Software Bill-of-Materials (SBOM), выстраивание принципов при написании собственных базовых образов, согласованное использование безопасных функций, и так далее. В данном случае отправной точкой для организации процессов может служить модель оценки зрелости BSIMM. Однако в этой статьей пойдет речь именно о технических аспектах.

+73

ferluht Jan 1 2021 at 17:29

Нейроссия: как я научил нейросеть рисовать русскую хтонь

4 min

41K

Machine learning*Popular scienceArtificial IntelligenceSocial networks and communities

Tutorial

TL;DR: закинул 10к фотографий панелек в Stylegan2 и запустил на Google Colab.

Подробнее под катом

+87

Rybolos Nov 20 2020 at 13:14

Тестируем ruGPT-3 на новых задачах

9 min

49K

Сбер corporate blogMachine learning*Artificial IntelligenceNatural Language Processing*SberDevices corporate blog

Tutorial

Technotext 2021

Визуализация больших графов для самых маленьких

12 min

56K

Data Mining*Data visualization*Machine learning*Open Data Science corporate blogArtificial Intelligence

Что делать, если вам нужно нарисовать граф, но попавшиеся под руку инструменты рисуют какой-то комок волос или вовсе пожирают всю оперативную память и вешают систему? За последние пару лет работы с большими графами (сотни миллионов вершин и рёбер) я испробовал много инструментов и подходов, и почти не находил достойных обзоров. Поэтому теперь пишу такой обзор сам.

Читать дальше →

+93

snakers4 Sep 17 2020 at 19:48

Мы опубликовали современные STT модели сравнимые по качеству с Google

2 min

Big Data*Machine learning*Start-up developmentSound

Technotext 2020

Мы наконец опубликовали наш набор высококачественных пре-тренированных моделей для распознавания речи (т.е. сравнимых по качеству с премиум-моделями Google) для следующих языков:

Английский;
Немецкий;
Испанский;

Вы можете найти наши модели в нашем репозитории вместе с примерами и метриками качества и скорости. Мы также постарались сделать начало работы с нашими моделями как можно более простым — выложили примеры на Collab и чекпойнты для PyTorch, ONNX и TensorFlow. Модели также можно загружать через TorchHub.

	PyTorch	ONNX	TensorFlow	Качество
Английский (en_v1)	✓	✓	✓	ссылка
Немецкий (de_v1)	✓	✓	✓	ссылка
Испанский (es_v1)	✓	✓	✓	ссылка

Читать дальше →

+36

aarmaageedoon Jul 31 2020 at 10:53

Парсим Википедию, фильтруя, для задач NLP в 44 строки кода

6 min

3.1K

Data Mining*Big Data*Natural Language Processing*

Tutorial

В этой заметке я хотел бы дополнить эту статью и рассказать, как можно гибче использовать экстрактор Википедии WikiExtractor, фильтруя статьи по категориям.

Читать дальше →

sebres Jun 18 2018 at 21:11

GNMT, epic fail или тонкости машинного перевода

4 min

Data Mining*Google API*Big Data*Machine learning*Artificial Intelligence

После прочтения статьи "Нейронный машинный перевод Google" вспомнился курсирующий последнее время в интернет очередной epic-fail машинного перевода от Google. Кому сильно не терпится сразу мотаем в низ статьи.

Ну а для начала немного теории:

GNMT есть система нейронного машинного перевода (NMT) компании Google, которая использует нейросеть (ANN) для повышения точности и скорости перевода, и в частности для создания лучших, более естественных вариантов перевода текста в Google Translate.

В случае GNMT речь идет о так называемом методе перевода на основе примеров (EBMT), т.е. ANN, лежащая в основе метода, обучается на миллионах примеров перевода, причем в отличии от других систем этот метод позволяет выполнять так называемый zero-shot перевод, т. е. переводить с одного языка на другой, не имея явные примеры для этой пары конкретных языков в процессе обучения (в обучающей выборке).

Image 1. Zero-Shot Translation

^{Рис. 1. Zero-Shot Translation}

Читать дальше →

1 2

Зачем вам нужно использовать активное обучение при обучении нейронных сетей

Сжимаем трансформеры: простые, универсальные и прикладные способы cделать их компактными и быстрыми

Inductive bias и нейронные сети

Окрашивание изображений

Как уменьшить количество измерений и извлечь из этого пользу

Перплексия в языковых моделях

Разбираем редкого зверя от Nvidia — DGX A100

Маленький и быстрый BERT для русского языка

Топ 6 библиотек Python для визуализации: какую и когда лучше использовать?

SQLite — не игрушка

Фонетические алгоритмы

Трюк с XOR для собеседований и не только

Лучшие практики при написании безопасного Dockerfile

Нейроссия: как я научил нейросеть рисовать русскую хтонь

Тестируем ruGPT-3 на новых задачах

Рекомендательные системы с нуля, чат-боты и многое другое

Визуализация больших графов для самых маленьких

Мы опубликовали современные STT модели сравнимые по качеству с Google

Парсим Википедию, фильтруя, для задач NLP в 44 строки кода

GNMT, epic fail или тонкости машинного перевода

Ну а для начала немного теории:

Information

Specialization