Как стать автором
Обновить
3
0
Королёв Сергей @serejk

Пользователь

Отправить сообщение

Как я восстановил данные после форматирования, создания разделов и установки системы на «не том» жестком диске

Время на прочтение12 мин
Количество просмотров89K

Здесь будет история о том, как я восстановил файлы и каталоги с жёсткого диска, который превратился в неразмеченную область, был частично отформатирован, разбит на новые разделы, на один из которых и была установлена новая система Linux. Если вам всё ещё интересно, вэлком под кат.
Читать дальше →
Всего голосов 124: ↑120 и ↓4+116
Комментарии100

Ремарки в Cisco IOS ACL

Время на прочтение4 мин
Количество просмотров5.7K

Недавно встретил среди своей команды некоторое непонимание принципов работы ремарок в списках доступа. Ремарки расценивались, как еще еще одна строка с правилом. Не было понимания, как работать с блоками правил под одной ремаркой и т.п.

Хотел найти внятное описание по этой теме, но к своему великому удивлению, ничего не нашел. Поэтому решил описать данную тему сам.

Читать далее
Всего голосов 5: ↑5 и ↓0+5
Комментарии5

Последовательное глубокое обучение для мониторинга кредитных рисков с использованием табличных финансовых данных

Время на прочтение22 мин
Количество просмотров3.5K

Машинное обучение играет важную роль в предотвращении финансовых потерь в банковской отрасли. Возможно, наиболее актуальной задачей прогнозирования, является оценка кредитного риска (риска дефолта по долгу). Такие риски могут привести к потерям в миллиарды долларов ежегодно. Сегодня большая часть выгод от машинного обучения в проблеме прогнозирования кредитного риска обусловлена моделями дерева решений с градиентным усилением. Тем не менее, эти выгоды начинают снижаться, если не поддерживаются новыми источниками данных и/или высокотехнологичных, гибких функций. В этой статье мы представляем наши попытки создать новый подход оценки кредитного риска с использованием глубокого обучения, который не предполагает сложного мониторинга, не опирается на новые входные данные модели. Мы предлагаем новые методы выборки транзакций по кредитным картам для использования с глубокими рекуррентными и причинно-следственными сверточными нейронными сетями, которые используют временные последовательности финансовых данных, без особых требований к ресурсам. Показываем, что наш последовательный подход к глубокому обучению с использованием временной сверточной сети превзошел эталонную непоследовательную древовидную модель, добившись значительной финансовой экономии и раннего обнаружения кредитного риска. Мы также демонстрируем потенциал нашего подхода для его использования в производственной среде, где предлагаемая методика выборки позволяет эффективно хранить последовательности в памяти, используя их для быстрого онлайн-обучения и продукций. 

Читать далее
Всего голосов 5: ↑5 и ↓0+5
Комментарии3

Препарирование нейронок, или TSNE и кластеризация на терабайтах данных

Время на прочтение12 мин
Количество просмотров7.3K

У вас продакшн нейронные сети, терабайты данных? Вам хочется понять, как работает нейронная сеть, но на таком объеме это сложно сделать? Сложно, но можно. Мы в NtechLab находимся именно в той ситуации, когда данных так много, что привычные инструменты интроспекции нейронных сетей становятся не информативны или вовсе не запускаются. У нас нет привычной разметки для обучения атрибутов. Но нам удалось вытащить из нейронной сети достаточно, чтобы классифицировать все имеющиеся данные на понятные человеку и учтенные нейронной сетью атрибуты. В этом посте мы расскажем, как это сделать.

Читать далее
Всего голосов 17: ↑12 и ↓5+7
Комментарии5

Сравнение различных видов ML классификаторов в задаче распознавания сигналов

Время на прочтение7 мин
Количество просмотров4K

Задача состоит в классификации гидроакустических сигналов. Сонары (гидролокаторы) посылают звук высокой частоты в определенном направлении и получают отраженную звуковую волну. По характеристике этой волны можно сделать вывод, от чего именно она отразилась – от морской мины или же от подводного камня, скалы. Используемый для решения задачи набор данных был разработан сотрудником аэрокосмического технологического центра Полом Горманом в разгар холодной войны. Для получения данных металлический цилиндр и цилиндрическая горная порода, оба длиной около 1,5 метров, размещались на песчаном дне океана.

Читать далее
Рейтинг0
Комментарии1

Эмбеддинги признаков и повышение точности ML-моделей

Время на прочтение7 мин
Количество просмотров34K

Прим. Wunder Fund: короткая статья о том, как эмбеддинги могут помочь при работе с категориальными признаками и сетками. А если вы и так умеете в сетки — то мы скоро открываем набор рисерчеров и будем рады с вами пообщаться, stay tuned.

Создание эмбеддингов признаков (feature embeddings) — это один из важнейших этапов подготовки табличных данных, используемых для обучения нейросетевых моделей. Об этом подходе к подготовке данных, к сожалению, редко говорят в сферах, не связанных с обработкой естественных языков. И, как следствие, его почти полностью обходят стороной при работе со структурированными наборами данных. Но то, что его, при работе с такими данными, не применяют, ведёт к значительному ухудшению точности моделей. Это стало причиной появления заблуждения, которое заключается в том, что алгоритмы градиентного бустинга, вроде того, что реализован в библиотеке XGBoost, это всегда — наилучший выбор для решения задач, предусматривающих работу со структурированными наборами данных. Нейросетевые методы моделирования, улучшенные за счёт эмбеддингов, часто дают лучшие результаты, чем методы, основанные на градиентном бустинге. Более того — обе группы методов показывают серьёзные улучшения при использовании эмбеддингов, извлечённых из существующих моделей.

Эта статья направлена на поиск ответов на следующие вопросы:

1. Что такое эмбеддинги признаков?
2. Как они используются при работе со структурированными данными?
3. Если использование эмбеддингов — это столь мощная методика — почему она недостаточно широко распространена?
4. Как создавать эмбеддинги?
5. Как использовать существующие эмбеддинги для улучшения других моделей?

Читать далее
Всего голосов 17: ↑16 и ↓1+15
Комментарии5

Таксономия методов watermarking нейронных сетей. Статические алгоритмы

Время на прочтение12 мин
Количество просмотров3.1K

Здравствуйте! Сегодня я хотел бы затронуть тему защиты авторских прав на нейронные сети.

Ниже Вашему вниманию представляется обзор первой части статьи «A survey of deep neural network watermarking techniques». Сразу оговорюсь, что я ставил своей целью сделать именно обзор, а не перевод. Так, в нем присутствуют не все понятия и методы из оригинальной статьи. Целью было формирование у читателя, который знаком лишь с базовыми понятиями из deep learning, начального представления о подходах к DNN watermarking.

Читать далее
Всего голосов 19: ↑19 и ↓0+19
Комментарии2

Рождение Albumentations

Время на прочтение15 мин
Количество просмотров7.5K

В этом посте я расскажу историю появления Open Source библиотеки Albumentations как я ее запомнил. Я не буду углубляться в технические детали. Основная задача текста - логирование, то есть надо написать историю, которую мне будет интересно прочитать через 20 лет.

История будет затянутая, с лишними подробностями, более того - основная часть будет о том, как все начиналось, а уже процесс итеративных улучшений будет покрыт меньше.

Читать далее
Всего голосов 57: ↑57 и ↓0+57
Комментарии4

Полиномиальная регрессия и метрики качества модели

Время на прочтение4 мин
Количество просмотров15K

Давайте разберемся на примере. Скажем, я хочу спрогнозировать зарплату специалиста по данным на основе количества лет опыта. Итак, моя целевая переменная (Y) — это зарплата, а независимая переменная (X) — опыт. У меня есть случайные данные по X и Y, и мы будем использовать линейную регрессию для прогнозирования заработной платы. Давайте использовать pandas и scikit-learn для загрузки данных и создания линейной модели.

Читать далее
Всего голосов 4: ↑3 и ↓1+2
Комментарии9

Методы сбора ансамблей алгоритмов машинного обучения: стекинг, бэггинг, бустинг

Время на прочтение5 мин
Количество просмотров29K

Ансамбль - это просто несколько алгоритмов машинного обучения, собранных в единое целое. Такой подход часто используется для того, чтобы усилить "положительные качества" отдельно взятых алгоритмов, которые сами по себе могут работать слабо, а вот в группе - ансамбле давать хороший результат. При использовании ансамблевых методов алгоритмы учатся одновременно и могут исправлять ошибки друг друга. Типичными примерами методов, направленных на объединение "слабых" учеников в группу сильных являются стекинг, бэггинг, бустинг, которые и будут рассмотрены далее.

Читать далее
Рейтинг0
Комментарии2

Прогнозирование временных рядов с помощью AutoML

Время на прочтение16 мин
Количество просмотров23K


Хабр, привет!


В лаборатории моделирования природных систем Национального центра когнитивных разработок Университета ИТМО мы активно исследуем вопросы применения автоматического машинного обучения для различных задач. В этой статье мы хотим рассказать о применении AutoML для эффективного прогнозирования временных рядов, а также о том, как это реализовано в рамках open-source фреймворка FEDOT. Это вторая статья из серии публикаций, посвященной данной разработке (с первой из них можно ознакомиться по ссылке).


Все подробности — под катом!

Читать дальше →
Всего голосов 8: ↑7 и ↓1+6
Комментарии4

Градиентный спуск в Python

Время на прочтение6 мин
Количество просмотров41K

Рабочая область функции (заданный интервал) разбита на несколько точек. Выбраны точки локальных минимумов. После этого все координаты передаются функции в качестве аргументов и выбирается аргумент, дающий наименьшее значение. Затем применяется метод градиентного спуска.

Читать далее
Всего голосов 10: ↑8 и ↓2+6
Комментарии7

Машина опорных векторов в 30 строчек

Время на прочтение16 мин
Количество просмотров8.6K
В этой статье я расскажу как написать свою очень простую машину опорных векторов без scikit-learn или других библиотек с готовой реализацией всего в 30 строчек на Python. Если вам хотелось разобраться в алгоритме SMO, но он показался слишком сложным, то эта статья может быть вам полезна.
Поехали!
Всего голосов 15: ↑15 и ↓0+15
Комментарии9

Умный дом xiaomi правильнее, чем home assistant, но можно еще правильнее

Время на прочтение9 мин
Количество просмотров42K

В предыдущих сериях я:


  1. Накупил устройств от Xiaomi для умного дома и посредством паяльника заставил их работать в увлекательной манере — без родных серверов через home assistant (ссылка на пост)
  2. Завернул web interface от home assistant в electron (ссылка на пост) с поддержкой нотификаций, менюшек, точбара итд (код тут)
  3. Разобрал протокол miio со стороны рассылки сообщений (ссылка на пост) и реализовал поддержку всяческих кнопок в xiaomi_miio.

Со временем накопилось понимание как устроены разные инкарнации умных домов, с точки зрения реализации сценариев и протоколов взаимодействия. С этим знанием я наделал устройств и реализовал для них "правильную" распределенную среду программирования для IoT с lisp-ом, криптографией и сборкой мусора. Под катом поведаю о ходе и результате процесса.

Читать дальше →
Всего голосов 38: ↑36 и ↓2+34
Комментарии61

Как получить 100% зрения и даже больше

Время на прочтение12 мин
Количество просмотров63K
Практика показывает, что далеко не каждый человек знает, что такое острота зрения. Например, если вы узнаете, что курица видит на 300%, то есть точно лучше каждого из нас, и глаза у нее видят по-разному — то вы удивитесь.

В древние времена остроту зрения проверяли по созвездию Большой Медведицы в ночном небе. Это созвездие напоминает «ковш с ручкой» и практически всегда видно на ночном небе. Так рядом со второй звездой от конца «ручки ковша» (Мицар) находится малозаметная небольшая звезда Алькор («забытая, незначительная»). Способность видеть эту малозаметную звезду считалась традиционным способом проверки зрения, условной нормой. То есть, система была бинарная – «вижу» и «не вижу».


Эра починки зрения началась несколько столетий назад, использовать для этого лазер стали всего пару десятилетий назад и совершили технологический скачок до эндоскопической коррекции зрения ReLEX SMILE, о ней писала здесь.

В мире с 1985 года выполнено более 60 миллионов процедур по лазерной коррекции зрения! И все эти люди счастливы, что получили 100% зрение, спросите вы? А теперь самое интересное – нет, не все счастливы. И уж точно не у всех 100%.

Что может быть причиной не 100% зрения, почему люди «щурятся», как оценивать показатели приборов, которые измеряют параметры глаза, в том числе после лазерной коррекции, можно ли им доверять, как избежать багов при тестировании, какие исследования, зачем и когда необходимы, чтобы прояснить картину?

Поделюсь тем, что должен знать офтальмолог, и как правило, о чем не в курсе пациент.
Читать дальше →
Всего голосов 44: ↑42 и ↓2+40
Комментарии102

Анализ производительности виртуальной машины в VMware vSphere. Часть 1: CPU

Время на прочтение11 мин
Количество просмотров73K


Если вы администрируете виртуальную инфраструктуру на базе VMware vSphere (или любого другого стека технологий), то наверняка часто слышите от пользователей жалобы: «Виртуальная машина работает медленно!». В этом цикле статей разберу метрики производительности и расскажу, что и почему «тормозит» и как сделать так, чтобы не «тормозило».

Буду рассматривать следующие аспекты производительности виртуальных машин:

  • CPU,
  • RAM,
  • DISK,
  • Network.

Начну с CPU.

Для анализа производительности нам понадобятся:

  • vCenter Performance Counters – счетчики производительности, графики которых можно посмотреть через vSphere Client. Информация по данным счетчикам доступна в любой версии клиента (“толстый” клиент на C#, web-клиент на Flex и web-клиент на HTML5). В данных статьях мы будем использовать скриншоты из С#-клиента, только потому, что они лучше смотрятся в миниатюре:)
  • ESXTOP – утилита, которая запускается из командной строки ESXi. С ее помощью можно получить значения счетчиков производительности в реальном времени или выгрузить эти значения за определенный период в .csv файл для дальнейшего анализа. Далее расскажу про этот инструмент подробнее и приведу несколько полезных ссылок на документацию и статьи по теме.

Читать дальше →
Всего голосов 29: ↑29 и ↓0+29
Комментарии13

Самые страшные яды

Время на прочтение24 мин
Количество просмотров348K


Привет, %username%

Да, я знаю, заголовок избитый и в гугле есть овер 9000 ссылок, в которых описываются страшные яды и рассказываются ужастики.

Но я не хочу перечислять то же самое. Я не хочу меряться дозами LD50 и претендовать на оригинальность.

Я хочу написать про те яды, с которыми ты, %username%, имеешь большой риск столкнуться каждый день. И которые не так просты, как их ближайшие собратья.

Врага надо знать в лицо. И надеюсь — будет интересно. А если окажется интересно — то возможно, что и осилишь вторую часть.

Итак — моя смертельная десятка!
Читать дальше →
Всего голосов 308: ↑292 и ↓16+276
Комментарии609

Интересные приемы программирования на Bash

Время на прочтение6 мин
Количество просмотров129K
Эти приемы были описаны во внутреннем проекте компании Google «Testing on the Toilet» (Тестируем в туалете — распространение листовок в туалетах, что бы напоминать разработчикам о тестах).
В данной статье они были пересмотрены и дополнены.
Читать дальше →
Всего голосов 181: ↑175 и ↓6+169
Комментарии67

Информация

В рейтинге
Не участвует
Откуда
Хабаровск, Хабаровский край, Россия
Зарегистрирован
Активность