Articles / Bookmarks / Profile of vaplite / Habr

How to become an author

User

Profile Publications Comments 28Bookmarks 129

MaxRokatansky May 5 2020 at 10:50

Высокие рассуждения на тему Deep Learning

8 min

3.1K

Big Data*Mathematics*Machine learning*OTUS corporate blog

Translation

Привет, друзья. сегодняшний материал приурочен к запуску очередного набора в группы по базовому и продвинутому курсам «Математики для Data Science».

Сегодня мы затронем некоторые размышления о методах глубокого обучения. Начнем с обзора шаблонных способов применения глубокого обучения в научной среде, а затем поговорим про сквозной процесс проектирования, а также вкратце про особенности альтернативных методов машинного обучения, которые могут оказаться более перспективными для решения специфических проблем.

Читать дальше →

+4

ph_piter May 5 2020 at 10:22

Python пора потесниться. О перспективах Julia

7 min

12K

Python*Programming*Издательский дом «Питер» corporate blogJulia*Learning languages

Translation

Доброе утро, Хабр!

Обойма нашей литературы по Python постоянно пополняется книгами самого разного уровня. Тем не менее, сегодня мы хотели бы сегодня вынести на обсуждение эту статью, автор которой считает язык Julia жизнеспособной и перспективной альтернативой Python. Читайте, переходите по ссылкам и не забудьте поучаствовать в голосовании.

Если Julia по-прежнему кажется вам таинственным, не волнуйтесь. Фото Julia Caesar на Unsplash

Читать дальше →

+4

Degun May 5 2020 at 12:55

Пришествие бинарных нейронных сетей на основе случайных нейронов и логических функций

27 min

6.6K

.NET*Data Mining*Algorithms*C#*Machine learning*

На сегодня среди множества алгоритмов машинного обучения широкое применение получили нейронные сети (НС). Основное преимущество НС перед другими методами машинного обучения состоит в том, что они могут выявить достаточно глубокие, часто неочевидные закономерности в данных. Классической парадигмой среди НС являются полносвязные сети с обратным распространением ошибки.

У полносвязных НС с обратным распространением ошибки имеется много преимуществ, главным среди которых является достаточно высокая точность классификации исходных данных, основанная на «сильном» математическом аппарате, лежащем в основе их функционирования. Но, с другой стороны, есть и недостатки, самым значительным среди которых является склонность к переобучению, когда НС подстраивается под локальные особенности обучающей выборки и утрачивает обобщающую способность. Это снижает эффективность и целесообразность их использования в качестве средства классификации или прогнозирования вне обучающей выборки на произвольных данных.

В данной статье к рассмотрению предлагается вариант полносвязных бинарных НС (в качестве целевого значения сети выступают бинарные переменные) с логической функцией на выходе, в которых отсутствует механизм обратного распространения ошибки. На этапе обучения при формировании весовых коэффициентов нейронов вместо их многократных итерационных расчётов, производимых для каждого обучающего образца, осуществляется однократный случайный выбор коэффициентов, что значительно сокращает время на обучение. Другим фундаментальным преимуществом данного подхода является отсутствие проблемы с переобучением сети.

Читать дальше →

+8

f66 May 5 2020 at 13:20

Как просканировать весь интернет

5 min

35K

Information Security*IT systems testing*IT Infrastructure*VDSina.ru corporate blog

Весь диапазон IPv4 адресов — это 4-миллиарда IP-адресов. Это кажется огромной цифрой, но весь IPv4 интернет можно полностью просканировать на предмет одного TCP-порта за 40 минут, например найти все веб-серверы в мире или все открытые SSH-порты. При этом достаточно одного сервера и гигабитного канала. Это полезно для исследований, например если вы собираете статистику по используемым технологиям в мире, или оцениваете процент уязвимых сервисов, открытых наружу.

Программа zmap (не путать с nmap) позволяет сканировать огромные диапазоны сетей намного быстрее любого сканера из-за особой архитектуры. В статье мы рассмотрим пример как собрать список всех веб-серверов в мире с помощью zmap. Имея список хостов с открытым HTTP портом, уже можно использовать более интеллектуальный сканер, передавая ему точный список целей.

Читать дальше →

+24

ru_vds May 5 2020 at 12:35

Новичкам фондового рынка: честные разговоры о трейдинге

12 min

126K

RUVDS.com corporate blogReading roomFinance in ITLifehacks for geeks

Блог RUVDS на Хабре видел всё: популяризацию JavaScript и крутые переводные материалы, яхтинг, вопросы образования и профессионального развития, бургеры, сыры, пиво и календари с кибердевушками. Задумка поговорить об основах трейдинга и работы на фондовом рынке возникала у нас давно, и вот почему. Большинство компаний, пишущих на биржевую тематику, имею чёткую цель: получить клиентов для своих инструментов и брокерских счетов, а значит, в их статьях инвестирование — исключительно привлекательное занятие, которое должно стать хобби каждого гика. Единственное, что мы можем предложить начинающим трейдерам — это VPS с торговыми платформами, и у нас нет мотивов представлять мир торговли на фондовом рынке как средство разбогатеть.

Мы решили сделать серию статей об основах торговли и наиболее популярных активах для новичков. Честно, без воззваний нести деньги брокеру или открывать свой счёт в конкретном банке. Ну а решать, ваш это путь или нет, — исключительно вам. Иногда гораздо выгоднее и даже быстрее освоить новый стек разработки и прокачать свою заработную плату и стабильный доход до нужного вам уровня.

+25

ncr May 4 2020 at 13:21

[Перевод] Смыть

18 min

26K

Web design*Website development*JavaScript*Programming*Browsers

Привет, Хабр! Представляю вашему вниманию перевод статьи «To Wash It All Away» автора James Mickens.

Когда я учился в аспирантуре в Анн-Арбор, у меня был друг, глубоко увлеченный движением защитников окружающей среды. Он покупал еду у местных фермеров, ездил на велосипеде вместо машины, желая уменьшить выбросы, и держал жуткое компостное ведро, которое, вероятно, будет источником следующей пандемии гриппа. Однажды он сказал мне, что собирается неделю пожить на ферме. Я спросил зачем, и он ответил, что хочет «побыть ближе к земле» — фраза, которую вы можете произнести с серьёзным лицом, только комментируя документальный фильм о древних южноамериканских племенах. Я сказал моему другу, что земля не хочет побыть ближе к нему и что если бы он действительно присмотрелся к земле, то увидел бы не молочные реки и кисельные берега, а голод, стервятников, непосильный труд с использованием тачек и в целом неприемлемые количества насекомых. Он разразился продолжительной лекцией об экологической ответственности, которую я тут же выбросил из головы, потому что понял, что мой наивный друг даст дуба на этой ферме, и посоветовал ему без колебаний возвращаться, если вдруг ему там будет недостаточно хорошо. Он улыбнулся мне так, как улыбаются люди в фильмах ужасов за минуту до встречи с топором, и отчалил.

Читать дальше →

+88

aikarimov May 4 2020 at 15:20

Пандемия COVID-19 глазами математика, или почему классическая модель SEIRD не работает

11 min

41K

Matlab*Popular scienceHealth

Аннотация, или о досуге молодых ученых

Последние несколько недель мы с коллегами заканчиваем рабочий день тем, что соревнуемся в точности прогноза развития эпидемии COVID-19 в России, используя различные методы нелинейной регрессии. И если прогноз на завтрашний день неизбежно оказывается хорош, то предсказание на срок больше одной недели отражает реальность лишь в общих чертах. Казалось бы, все понятно: есть эпидемиологические модели, есть методы оптимизации, есть достаточно подробные данные, — достаточно совместить это воедино и получить точный прогноз на месяц, а то и полгода, вперед. В этой статье я поделюсь своими соображениями, что не так с классической моделью SEIRD и как это исправить. И, конечно, приоткрою завесу тайны, окутывающую наше с вами будущее.

Усаживайтесь поудобнее, нас ждет зубодробительный матан для тех, кто знает, что такое дифференциальные уравнения (для остальных красивые картинки прилагаются).

На рисунке выше приведено общее число подтвержденных случаев COVID-19 в логарифмическом масштабе для России и трех европейских стран, входящих в топ-5 по числу зараженных. Объяснение далее в тексте.

Читать дальше →

+53

DmitryOlkhovoi May 4 2020 at 14:55

Выращиваем ИИ — Генетические алгоритмы: введение

19 min

23K

Machine learning*BiotechnologiesArtificial Intelligence

Tutorial

(сгенерированое изображение)

Существует множество способов создать искусственную нейронную сеть или даже "искусственный интеллект". Но все эти способы обескураживают, от части сложностью которую я не до конца понимаю, отчасти от того, что все сводится к математическим формулам.

В таких подходах нет нечего плохого, они помогают решать поставленные перед ними задачи. Но похоже мне очень хочется написать велосипед.

+11

Zmey56 May 3 2020 at 21:37

Использование метода Монте-Карло для создания портфеля

4 min

12K

Python*Machine learning*Finance in IT

Начинающие (да и не только) инвесторы часто задаются вопросом о том, как отобрать для себя идеальное соотношение активов входящих в портфель. Часто (или не очень, но знаю про двух точно) у некоторых брокеров эту функцию выполняет торговый робот. Но заложенные в них алгоритмы не раскрываются.

В этом посте будет рассмотрено то, как оптимизировать портфель при помощи Python и симуляции Монте Карло. Под оптимизацией портфеля понимается такое соотношение весов, которое будет удовлетворять одному из условий:

Читать дальше →

+4

OlejanKovalli May 2 2020 at 23:42

Большой туториал по обработке спортивных данных на python

76 min

13K

Tutorial

Последние пару лет в свободное время занимаюсь триатлоном. Этот вид спорта очень популярен во многих странах мира, в особенности в США, Австралии и Европе. В настоящее время набирает стремительную популярность в России и странах СНГ. Речь идет о вовлечении любителей, не профессионалов. В отличие от просто плавания в бассейне, катания на велосипеде и пробежек по утрам, триатлон подразумевает участие в соревнованиях и системной подготовке к ним, даже не будучи профессионалом. Наверняка среди ваших знакомых уже есть по крайней мере один “железный человек” или тот, кто планирует им стать. Массовость, разнообразие дистанций и условий, три вида спорта в одном – все это располагает к образованию большого количества данных. Каждый год в мире проходит несколько сотен соревнований по триатлону, в которых участвует несколько сотен тысяч желающих. Соревнования проводятся силами нескольких организаторов. Каждый из них, естественно, публикует результаты у себя. Но для спортсменов из России и некоторых стран СНГ, команда tristats.ru собирает все результаты в одном месте – на своем одноименном сайте. Это делает очень удобным поиск результатов, как своих, так и своих друзей и соперников, или даже своих кумиров. Но для меня это дало еще и возможность сделать анализ большого количества результатов программно. Результаты опубликиваны на трилайфе: почитать.

Это был мой первый проект подобного рода, потому как лишь недавно я начал заниматься анализом данных в принципе, а также использовать python. Поэтому хочу рассказать вам о техническом исполнении этой работы, тем более что в процессе то и дело всплывали различные нюансы, требующие иногда особого подхода. Здесь будет про скраппинг, парсинг, приведение типов и форматов, восстановление неполных данных, формирование репрезентативной выборки, визуализацию, векторизацию и даже параллельные вычисления.

Читать дальше →

+9

edo1h May 4 2020 at 02:42

Mein Linux

5 min

63K

На Хабре в последнее время появилась серия холиварных статей:
Семь причин, почему Линукс
Главная причина, почему не Linux (от автора предыдущей статьи)
Главная причина, почему все-таки Linux

В этих статьях и комментариях к ним много говорили о коммунизме, цельности системы, свободе, юзабилити, домохозяйках, глюках… Да о чём угодно, но самое главное для меня если и упоминалось, то только вскользь.

Так что я решил написать свою статью, она будет ~~совсем небольшой~~ не очень большой, не пугайтесь.

Читать дальше →

+112

freecoder_xx Apr 30 2020 at 20:47

Главная причина, почему все-таки Linux

5 min

82K

Configuring Linux*Open source*Desktop PC'sThe future is here

Недавно на Хабре была опубликована статья Главная причина, почему не Linux, которая наделала много шума в обсуждениях. Данная заметка — это небольшой философский ответ на ту статью, который, как я надеюсь, расставит все точки над i, причем с довольно неожиданной для многих читателей стороны.

Читать дальше →

+39

RomanenkoDenys May 1 2020 at 11:07

Как использовать Prometheus для обнаружения аномалий в GitLab

10 min

9.5K

VK corporate blogGit*

Translation

Одной из базовых функций языка запросов Prometheus является агрегация временных рядов в режиме реального времени. Также язык запросов Prometheus можно использовать для обнаружения аномалий в данных временных рядов.

Команда Mail.ru Cloud Solutions перевела статью инженера команды инфраструктуры GitLab, где вы найдете примеры кода, которые сможете попробовать на своих системах.

Читать дальше →

+28

Warl0ck666 May 2 2020 at 13:48

Неироничная ненависть к JavaScript

4 min

35K

Прочитав данный перевод первоапрельской статьи о JavaScript я был удивлен тому, к каким мелочам могут придираться люди. И проблема не в самой статье, не в мемах и шутках о данном языке, а в том, что кто-то неиронично утверждает что JavaScript — плохой язык программирования. Но что, если попытаться его понять?

Читать дальше →

+49

shuvaevgl Apr 28 2020 at 09:30

Создание Mesh сети на несколько гектаров за один день

5 min

18K

Wireless technologies*GadgetsNetwork hardware

В нелегкий период самоизоляции существенно выросли нагрузки на операторов связи. В онлайн ушло обучение, работа, почти все доступные развлечения и получение новостной информации. А самым распространенным каналом связи между абонентским устройством и доступом в интернет является беспроводной доступ. Wi-Fi уже доступен везде: дома, в метро, в барбершопе, в самолете. На этот раз я решил протестировать Mesh систему, которая может накрыть Wi-Fi сетью торговый комплекс и обеспечит бесшовный роуминг на большой территории.

+8

Witcher136 Apr 27 2020 at 21:27

Создание и настройка Mesh-сети на собственном опыте, а также немного цифр и аналитики

6 min

6.9K

C++*Mesh networks*

Все началось с того, что на очередном обсуждении дальнейшей судьбы проекта, над которым я тогда работал, кто-то сказал: «А давайте прикрутим меш-сети, ведь это круто, модно и молодёжно!». И именно с этого момента началась моя неравная борьба с меш-сетями, из которой мы с товарищем вышли победителями. Хоть и с небольшой оговоркой.

Читать дальше →

+7

ntsaplin Apr 28 2020 at 14:14

Мне кажется, что российские VPS/VDS-хостинги родом из ада (и да, мы косячим тоже)

12 min

28K

HostingIT Infrastructure*RUVDS.com corporate blogProject management*

В общем, сразу хочу сказать, что мнение про ад и то, что сервис у многих из двухтысячных — это оценочное суждение. На самом деле, конечно, они родом из России. На самом деле, конечно, мы тоже хороши, и об этих пятнах в биографии я тоже расскажу. На самом деле, в последние годы та же поддержка у многих стала гораздо лучше. Но всё равно кое у кого родословная кое-где да всплывает.

Давайте я пройдусь по проблемам, которые часто прямо нереально болят у клиентов хостинга, расскажу, что хорошо-плохо у нас и как это выглядит в других хостингах в России и за её пределами (но там, очевидно, я знаю про внутрянку меньше).

Первая история — железо. Клиентов нереально бесит, когда полетел RAID-контроллер или вылетело сразу несколько дисков, и поддержка делает простой на замену. У нас был один клиент, которого сначала рикошетом зацепило DDoS по соседней VDS в том же серваке, потом через два часа начались плановые работы с сетевым адаптером, а потом ещё и рейд ушел в ребилд после включения-перезагрузки. К вопросу дидосов мы ещё вернёмся, кстати.

Так вот, можно взять дешёвое «околобытовое» железо и часто его чинить, а можно серверное — у нас Хуавей корпоративной линейки. Насколько я знаю, профессиональное серверное железо есть у нас и ещё у двух игроков на российском рынке. Поправьте меня, если ошибаюсь. Это потому что мы на старте считали, что проживём больше пяти лет и решили списывать старое железо минимум через пять лет после начала эксплуатации. Кстати, опять же, примерно так и появился тариф за 30 рублей за VDS, смекаете?

Читать дальше →

+67

labyrinth Apr 28 2020 at 15:30

Риторика в качестве инструмента безопасника

13 min

5.3K

Information Security*

Tutorial

Сотрудники порой как дети малые. Говоришь одно – делают другое. Либо вообще не делают. Просишь не приклеивать стикеры с паролями на монитор – прячут под клавиатуру. Напоминаешь быть внимательными к подозрительной почте – кивают и тут же забывают. Мне эта ситуация всегда напоминает журнал учёта инструктажей по пожарной безопасности. Прошёл обучение? Прошёл. Расписался? Конечно. А кто-нибудь что-нибудь помнит из обучения? *звук критической ошибки Windows* Вот и с вопросами ИБ аналогично.

Есть избитая фраза про эффективность профилактики болезней. Но раз за разом разосланные инструкции забываются, а любое наказание воспринимается коллективом, как репрессии и угнетение честного люда. Безопасник же воспринимается этаким медведем из анкедота, который ходит по офису с вопросами а-ля «Почему без шапки?». Ну и почему так получилось?

Дело в том, что на этой ситуации хорошо видна разница между «бумажной» и реальной безопасностью. Для первой нам достаточно всех заставить что-то прослушать-просмотреть и расписаться в бумагах. После чего в случае нарушений можно нещадно махать шашкой. Вот только реальные проблемы такой подход не решает. Нужного эффекта получится добиться только когда сотрудник сам понимает, для чего нужны те или иные меры. Если сотрудник знает, почему не нужно найденную флешку подключать к корпоративной машине, но не верит в реальность такой угрозы, это ваша недоработка. Вы не были достаточно убедительны в том, чтобы сотрудник не только знал про опасность, но и понимал, что это случится с ним.

Данная статья написана под впечатлением от пособия С.В. Конявской «Прикладная риторика для специалистов по защите информации». Под катом описывается собственное видение теории и практики применения риторики для задач информационной безопасности.

Читать дальше →

+11

valemak Apr 30 2020 at 09:37

Сортировка слабой кучей

10 min

10K

High performance*Perfect code*C++*Algorithms*Edison corporate blog

Из всего зоопарка куч, эта структура, пожалуй, самая необычная. При этом элегантная простота алгоритма вполне под стать его удивительной неординарности.

При сортировке с помощью слабой кучи всегда меньше количество сравнений и обменов, чем если использовать обычную кучу. Так что да, слабая куча сильнее, чем обычная куча.

+25

egor_labintcev Apr 30 2020 at 20:52

Генерация под контролем: как обуздать мощные языковые модели

5 min

3.2K

Algorithms*Machine learning*Natural Language Processing*

Intro

Если вы не проспали последние пару-тройку лет, то вы, конечно, слышали от трансформерах — архитектуре из каноничной Attention is all you need. Почему трансформеры так хороши? Например, они избегают рекуррентности, что дает им возможность эффективно создавать такое представление данных, в которое можно запихнуть очень много контекстной информации, что положительно сказывается на возможности генерации текстов и непревзойденной способности к transfer learning.

Трансформеры запустили лавину работ по language modelling — задаче, в которой модель подбирает следующее слово, учитывая вероятности предыдущих слов, то есть выучивая p(x), где x — текущий токен. Как можно догадаться, это задача совсем не требует разметки и потому в ней можно использовать огромные неаннотированные массивы текста. Уже обученная языковая модель может генерировать текст, да так хорошо, что авторы подчас отказываются выкладывать обученные модели.

Но что если мы хотим добавить немного “ручек” к генерации текста? Например, делать условную генерацию, задавая тему или контролируя другие атрибуты. Такая форма уже требует условной вероятности p(x|a), где a — это желаемый атрибут. Интересно? Поехали под кат!

Читать дальше →

+17

1

2 3 ...