Pull to refresh
4
0
Send message

Высокие рассуждения на тему Deep Learning

Reading time8 min
Views3.1K
Привет, друзья. сегодняшний материал приурочен к запуску очередного набора в группы по базовому и продвинутому курсам «Математики для Data Science».




Сегодня мы затронем некоторые размышления о методах глубокого обучения. Начнем с обзора шаблонных способов применения глубокого обучения в научной среде, а затем поговорим про сквозной процесс проектирования, а также вкратце про особенности альтернативных методов машинного обучения, которые могут оказаться более перспективными для решения специфических проблем.
Читать дальше →
Total votes 16: ↑10 and ↓6+4
Comments0

Python пора потесниться. О перспективах Julia

Reading time7 min
Views12K
Доброе утро, Хабр!

Обойма нашей литературы по Python постоянно пополняется книгами самого разного уровня. Тем не менее, сегодня мы хотели бы сегодня вынести на обсуждение эту статью, автор которой считает язык Julia жизнеспособной и перспективной альтернативой Python. Читайте, переходите по ссылкам и не забудьте поучаствовать в голосовании.



Если Julia по-прежнему кажется вам таинственным, не волнуйтесь. Фото Julia Caesar на Unsplash

Читать дальше →
Total votes 18: ↑11 and ↓7+4
Comments34

Пришествие бинарных нейронных сетей на основе случайных нейронов и логических функций

Reading time27 min
Views6.6K

На сегодня среди множества алгоритмов машинного обучения широкое применение получили нейронные сети (НС). Основное преимущество НС перед другими методами машинного обучения состоит в том, что они могут выявить достаточно глубокие, часто неочевидные закономерности в данных. Классической парадигмой среди НС являются полносвязные сети с обратным распространением ошибки.


У полносвязных НС с обратным распространением ошибки имеется много преимуществ, главным среди которых является достаточно высокая точность классификации исходных данных, основанная на «сильном» математическом аппарате, лежащем в основе их функционирования. Но, с другой стороны, есть и недостатки, самым значительным среди которых является склонность к переобучению, когда НС подстраивается под локальные особенности обучающей выборки и утрачивает обобщающую способность. Это снижает эффективность и целесообразность их использования в качестве средства классификации или прогнозирования вне обучающей выборки на произвольных данных.


В данной статье к рассмотрению предлагается вариант полносвязных бинарных НС (в качестве целевого значения сети выступают бинарные переменные) с логической функцией на выходе, в которых отсутствует механизм обратного распространения ошибки. На этапе обучения при формировании весовых коэффициентов нейронов вместо их многократных итерационных расчётов, производимых для каждого обучающего образца, осуществляется однократный случайный выбор коэффициентов, что значительно сокращает время на обучение. Другим фундаментальным преимуществом данного подхода является отсутствие проблемы с переобучением сети.

Читать дальше →
Total votes 8: ↑8 and ↓0+8
Comments41

Как просканировать весь интернет

Reading time5 min
Views35K


Весь диапазон IPv4 адресов — это 4-миллиарда IP-адресов. Это кажется огромной цифрой, но весь IPv4 интернет можно полностью просканировать на предмет одного TCP-порта за 40 минут, например найти все веб-серверы в мире или все открытые SSH-порты. При этом достаточно одного сервера и гигабитного канала. Это полезно для исследований, например если вы собираете статистику по используемым технологиям в мире, или оцениваете процент уязвимых сервисов, открытых наружу.

Программа zmap (не путать с nmap) позволяет сканировать огромные диапазоны сетей намного быстрее любого сканера из-за особой архитектуры. В статье мы рассмотрим пример как собрать список всех веб-серверов в мире с помощью zmap. Имея список хостов с открытым HTTP портом, уже можно использовать более интеллектуальный сканер, передавая ему точный список целей.
Читать дальше →
Total votes 32: ↑28 and ↓4+24
Comments29

Новичкам фондового рынка: честные разговоры о трейдинге

Reading time12 min
Views126K
Блог RUVDS на Хабре видел всё: популяризацию JavaScript и крутые переводные материалы, яхтинг, вопросы образования и профессионального развития, бургеры, сыры, пиво и календари с кибердевушками. Задумка поговорить об основах трейдинга и работы на фондовом рынке возникала у нас давно, и вот почему. Большинство компаний, пишущих на биржевую тематику, имею чёткую цель: получить клиентов для своих инструментов и брокерских счетов, а значит, в их статьях инвестирование — исключительно привлекательное занятие, которое должно стать хобби каждого гика. Единственное, что мы можем предложить начинающим трейдерам — это VPS с торговыми платформами, и у нас нет мотивов представлять мир торговли на фондовом рынке как средство разбогатеть. 

Мы решили сделать серию статей об основах торговли и наиболее популярных активах для новичков. Честно, без воззваний нести деньги брокеру или открывать свой счёт в конкретном банке. Ну а решать, ваш это путь или нет, — исключительно вам. Иногда гораздо выгоднее и даже быстрее освоить новый стек разработки и прокачать свою заработную плату и стабильный доход до нужного вам уровня.

Total votes 71: ↑48 and ↓23+25
Comments46

[Перевод] Смыть

Reading time18 min
Views26K
Привет, Хабр! Представляю вашему вниманию перевод статьи «To Wash It All Away» автора James Mickens.



Когда я учился в аспирантуре в Анн-Арбор, у меня был друг, глубоко увлеченный движением защитников окружающей среды. Он покупал еду у местных фермеров, ездил на велосипеде вместо машины, желая уменьшить выбросы, и держал жуткое компостное ведро, которое, вероятно, будет источником следующей пандемии гриппа. Однажды он сказал мне, что собирается неделю пожить на ферме. Я спросил зачем, и он ответил, что хочет «побыть ближе к земле» — фраза, которую вы можете произнести с серьёзным лицом, только комментируя документальный фильм о древних южноамериканских племенах. Я сказал моему другу, что земля не хочет побыть ближе к нему и что если бы он действительно присмотрелся к земле, то увидел бы не молочные реки и кисельные берега, а голод, стервятников, непосильный труд с использованием тачек и в целом неприемлемые количества насекомых. Он разразился продолжительной лекцией об экологической ответственности, которую я тут же выбросил из головы, потому что понял, что мой наивный друг даст дуба на этой ферме, и посоветовал ему без колебаний возвращаться, если вдруг ему там будет недостаточно хорошо. Он улыбнулся мне так, как улыбаются люди в фильмах ужасов за минуту до встречи с топором, и отчалил.
Читать дальше →
Total votes 124: ↑106 and ↓18+88
Comments166

Пандемия COVID-19 глазами математика, или почему классическая модель SEIRD не работает

Reading time11 min
Views41K

Аннотация, или о досуге молодых ученых


Последние несколько недель мы с коллегами заканчиваем рабочий день тем, что соревнуемся в точности прогноза развития эпидемии COVID-19 в России, используя различные методы нелинейной регрессии. И если прогноз на завтрашний день неизбежно оказывается хорош, то предсказание на срок больше одной недели отражает реальность лишь в общих чертах. Казалось бы, все понятно: есть эпидемиологические модели, есть методы оптимизации, есть достаточно подробные данные, — достаточно совместить это воедино и получить точный прогноз на месяц, а то и полгода, вперед. В этой статье я поделюсь своими соображениями, что не так с классической моделью SEIRD и как это исправить. И, конечно, приоткрою завесу тайны, окутывающую наше с вами будущее.

Усаживайтесь поудобнее, нас ждет зубодробительный матан для тех, кто знает, что такое дифференциальные уравнения (для остальных красивые картинки прилагаются).


На рисунке выше приведено общее число подтвержденных случаев COVID-19 в логарифмическом масштабе для России и трех европейских стран, входящих в топ-5 по числу зараженных. Объяснение далее в тексте.
Читать дальше →
Total votes 63: ↑58 and ↓5+53
Comments156

Выращиваем ИИ — Генетические алгоритмы: введение

Reading time19 min
Views23K


(сгенерированое изображение)


Существует множество способов создать искусственную нейронную сеть или даже "искусственный интеллект". Но все эти способы обескураживают, от части сложностью которую я не до конца понимаю, отчасти от того, что все сводится к математическим формулам.


В таких подходах нет нечего плохого, они помогают решать поставленные перед ними задачи. Но похоже мне очень хочется написать велосипед.

Total votes 17: ↑14 and ↓3+11
Comments5

Использование метода Монте-Карло для создания портфеля

Reading time4 min
Views12K
Начинающие (да и не только) инвесторы часто задаются вопросом о том, как отобрать для себя идеальное соотношение активов входящих в портфель. Часто (или не очень, но знаю про двух точно) у некоторых брокеров эту функцию выполняет торговый робот. Но заложенные в них алгоритмы не раскрываются.

В этом посте будет рассмотрено то, как оптимизировать портфель при помощи Python и симуляции Монте Карло. Под оптимизацией портфеля понимается такое соотношение весов, которое будет удовлетворять одному из условий:
Читать дальше →
Total votes 10: ↑7 and ↓3+4
Comments18

Большой туториал по обработке спортивных данных на python

Reading time76 min
Views13K


Последние пару лет в свободное время занимаюсь триатлоном. Этот вид спорта очень популярен во многих странах мира, в особенности в США, Австралии и Европе. В настоящее время набирает стремительную популярность в России и странах СНГ. Речь идет о вовлечении любителей, не профессионалов. В отличие от просто плавания в бассейне, катания на велосипеде и пробежек по утрам, триатлон подразумевает участие в соревнованиях и системной подготовке к ним, даже не будучи профессионалом. Наверняка среди ваших знакомых уже есть по крайней мере один “железный человек” или тот, кто планирует им стать. Массовость, разнообразие дистанций и условий, три вида спорта в одном – все это располагает к образованию большого количества данных. Каждый год в мире проходит несколько сотен соревнований по триатлону, в которых участвует несколько сотен тысяч желающих. Соревнования проводятся силами нескольких организаторов. Каждый из них, естественно, публикует результаты у себя. Но для спортсменов из России и некоторых стран СНГ, команда tristats.ru собирает все результаты в одном месте – на своем одноименном сайте. Это делает очень удобным поиск результатов, как своих, так и своих друзей и соперников, или даже своих кумиров. Но для меня это дало еще и возможность сделать анализ большого количества результатов программно. Результаты опубликиваны на трилайфе: почитать.

Это был мой первый проект подобного рода, потому как лишь недавно я начал заниматься анализом данных в принципе, а также использовать python. Поэтому хочу рассказать вам о техническом исполнении этой работы, тем более что в процессе то и дело всплывали различные нюансы, требующие иногда особого подхода. Здесь будет про скраппинг, парсинг, приведение типов и форматов, восстановление неполных данных, формирование репрезентативной выборки, визуализацию, векторизацию и даже параллельные вычисления.
Читать дальше →
Total votes 9: ↑9 and ↓0+9
Comments6

Mein Linux

Reading time5 min
Views63K

На Хабре в последнее время появилась серия холиварных статей:
Семь причин, почему Линукс
Главная причина, почему не Linux (от автора предыдущей статьи)
Главная причина, почему все-таки Linux


В этих статьях и комментариях к ним много говорили о коммунизме, цельности системы, свободе, юзабилити, домохозяйках, глюках… Да о чём угодно, но самое главное для меня если и упоминалось, то только вскользь.


Так что я решил написать свою статью, она будет совсем небольшой не очень большой, не пугайтесь.

Читать дальше →
Total votes 138: ↑125 and ↓13+112
Comments751

Главная причина, почему все-таки Linux

Reading time5 min
Views82K

Недавно на Хабре была опубликована статья Главная причина, почему не Linux, которая наделала много шума в обсуждениях. Данная заметка — это небольшой философский ответ на ту статью, который, как я надеюсь, расставит все точки над i, причем с довольно неожиданной для многих читателей стороны.


Читать дальше →
Total votes 119: ↑79 and ↓40+39
Comments916

Как использовать Prometheus для обнаружения аномалий в GitLab

Reading time10 min
Views9.5K

Одной из базовых функций языка запросов Prometheus является агрегация временных рядов в режиме реального времени. Также язык запросов Prometheus можно использовать для обнаружения аномалий в данных временных рядов. 

Команда Mail.ru Cloud Solutions перевела статью инженера команды инфраструктуры GitLab, где вы найдете примеры кода, которые сможете попробовать на своих системах.
Читать дальше →
Total votes 28: ↑28 and ↓0+28
Comments2

Неироничная ненависть к JavaScript

Reading time4 min
Views35K

Прочитав данный перевод первоапрельской статьи о JavaScript я был удивлен тому, к каким мелочам могут придираться люди. И проблема не в самой статье, не в мемах и шутках о данном языке, а в том, что кто-то неиронично утверждает что JavaScript — плохой язык программирования. Но что, если попытаться его понять?

Читать дальше →
Total votes 113: ↑81 and ↓32+49
Comments423

Создание Mesh сети на несколько гектаров за один день

Reading time5 min
Views18K
В нелегкий период самоизоляции существенно выросли нагрузки на операторов связи. В онлайн ушло обучение, работа, почти все доступные развлечения и получение новостной информации. А самым распространенным каналом связи между абонентским устройством и доступом в интернет является беспроводной доступ. Wi-Fi уже доступен везде: дома, в метро, в барбершопе, в самолете. На этот раз я решил протестировать Mesh систему, которая может накрыть Wi-Fi сетью торговый комплекс и обеспечит бесшовный роуминг на большой территории.

Total votes 8: ↑8 and ↓0+8
Comments25

Создание и настройка Mesh-сети на собственном опыте, а также немного цифр и аналитики

Reading time6 min
Views6.9K

Все началось с того, что на очередном обсуждении дальнейшей судьбы проекта, над которым я тогда работал, кто-то сказал: «А давайте прикрутим меш-сети, ведь это круто, модно и молодёжно!». И именно с этого момента началась моя неравная борьба с меш-сетями, из которой мы с товарищем вышли победителями. Хоть и с небольшой оговоркой.


image
Читать дальше →
Total votes 7: ↑7 and ↓0+7
Comments6

Мне кажется, что российские VPS/VDS-хостинги родом из ада (и да, мы косячим тоже)

Reading time12 min
Views28K

В общем, сразу хочу сказать, что мнение про ад и то, что сервис у многих из двухтысячных — это оценочное суждение. На самом деле, конечно, они родом из России. На самом деле, конечно, мы тоже хороши, и об этих пятнах в биографии я тоже расскажу. На самом деле, в последние годы та же поддержка у многих стала гораздо лучше. Но всё равно кое у кого родословная кое-где да всплывает.

Давайте я пройдусь по проблемам, которые часто прямо нереально болят у клиентов хостинга, расскажу, что хорошо-плохо у нас и как это выглядит в других хостингах в России и за её пределами (но там, очевидно, я знаю про внутрянку меньше).

Первая история — железо. Клиентов нереально бесит, когда полетел RAID-контроллер или вылетело сразу несколько дисков, и поддержка делает простой на замену. У нас был один клиент, которого сначала рикошетом зацепило DDoS по соседней VDS в том же серваке, потом через два часа начались плановые работы с сетевым адаптером, а потом ещё и рейд ушел в ребилд после включения-перезагрузки. К вопросу дидосов мы ещё вернёмся, кстати.

Так вот, можно взять дешёвое «околобытовое» железо и часто его чинить, а можно серверное — у нас Хуавей корпоративной линейки. Насколько я знаю, профессиональное серверное железо есть у нас и ещё у двух игроков на российском рынке. Поправьте меня, если ошибаюсь. Это потому что мы на старте считали, что проживём больше пяти лет и решили списывать старое железо минимум через пять лет после начала эксплуатации. Кстати, опять же, примерно так и появился тариф за 30 рублей за VDS, смекаете?
Читать дальше →
Total votes 79: ↑73 and ↓6+67
Comments89

Риторика в качестве инструмента безопасника

Reading time13 min
Views5.3K
Сотрудники порой как дети малые. Говоришь одно – делают другое. Либо вообще не делают. Просишь не приклеивать стикеры с паролями на монитор – прячут под клавиатуру. Напоминаешь быть внимательными к подозрительной почте – кивают и тут же забывают. Мне эта ситуация всегда напоминает журнал учёта инструктажей по пожарной безопасности. Прошёл обучение? Прошёл. Расписался? Конечно. А кто-нибудь что-нибудь помнит из обучения? *звук критической ошибки Windows* Вот и с вопросами ИБ аналогично.

Есть избитая фраза про эффективность профилактики болезней. Но раз за разом разосланные инструкции забываются, а любое наказание воспринимается коллективом, как репрессии и угнетение честного люда. Безопасник же воспринимается этаким медведем из анкедота, который ходит по офису с вопросами а-ля «Почему без шапки?». Ну и почему так получилось?

Дело в том, что на этой ситуации хорошо видна разница между «бумажной» и реальной безопасностью. Для первой нам достаточно всех заставить что-то прослушать-просмотреть и расписаться в бумагах. После чего в случае нарушений можно нещадно махать шашкой. Вот только реальные проблемы такой подход не решает. Нужного эффекта получится добиться только когда сотрудник сам понимает, для чего нужны те или иные меры. Если сотрудник знает, почему не нужно найденную флешку подключать к корпоративной машине, но не верит в реальность такой угрозы, это ваша недоработка. Вы не были достаточно убедительны в том, чтобы сотрудник не только знал про опасность, но и понимал, что это случится с ним.

Данная статья написана под впечатлением от пособия С.В. Конявской «Прикладная риторика для специалистов по защите информации». Под катом описывается собственное видение теории и практики применения риторики для задач информационной безопасности.
Читать дальше →
Total votes 13: ↑12 and ↓1+11
Comments22

Сортировка слабой кучей

Reading time10 min
Views10K

Из всего зоопарка куч, эта структура, пожалуй, самая необычная. При этом элегантная простота алгоритма вполне под стать его удивительной неординарности.

При сортировке с помощью слабой кучи всегда меньше количество сравнений и обменов, чем если использовать обычную кучу. Так что да, слабая куча сильнее, чем обычная куча.
Траффик
Total votes 27: ↑26 and ↓1+25
Comments10

Генерация под контролем: как обуздать мощные языковые модели

Reading time5 min
Views3.2K

Intro


Если вы не проспали последние пару-тройку лет, то вы, конечно, слышали от трансформерах — архитектуре из каноничной Attention is all you need. Почему трансформеры так хороши? Например, они избегают рекуррентности, что дает им возможность эффективно создавать такое представление данных, в которое можно запихнуть очень много контекстной информации, что положительно сказывается на возможности генерации текстов и непревзойденной способности к transfer learning.


Трансформеры запустили лавину работ по language modelling — задаче, в которой модель подбирает следующее слово, учитывая вероятности предыдущих слов, то есть выучивая p(x), где x — текущий токен. Как можно догадаться, это задача совсем не требует разметки и потому в ней можно использовать огромные неаннотированные массивы текста. Уже обученная языковая модель может генерировать текст, да так хорошо, что авторы подчас отказываются выкладывать обученные модели.


Но что если мы хотим добавить немного “ручек” к генерации текста? Например, делать условную генерацию, задавая тему или контролируя другие атрибуты. Такая форма уже требует условной вероятности p(x|a), где a — это желаемый атрибут. Интересно? Поехали под кат!

Читать дальше →
Total votes 19: ↑18 and ↓1+17
Comments0
1
23 ...

Information

Rating
Does not participate
Registered
Activity