Пользователь

Профиль Публикации Комментарии 337Закладки 336

JetHabr 26 сен 2019 в 14:50

Нейросеть для классификации спутниковых снимков с помощью Tensorflow на Python

9 мин

13K

Алгоритмы*Блог компании Инфосистемы ДжетМашинное обучение*

Туториал

Перевод

Это пошаговая инструкция по классификации мультиспектральных снимков со спутника Landsat 5. Сегодня в ряде сфер глубокое обучение доминирует как инструмент для решения сложных проблем, в том числе геопространственных. Надеюсь, вы знакомы с датасетами спутниковых снимков, в частности, Landsat 5 TM. Если вы немного разбираетесь в работе алгоритмов машинного обучения, то это поможет вам быстро освоить это руководство. А для тех, кто не разбирается, будет достаточным знать, что, по сути, машинное обучение заключается в установлении взаимосвязей между несколькими характеристиками (набором признаков Х) объекта с другим его свойством (значением или меткой, — целевой переменной Y). Мы подаём на вход модели много объектов, для которых известны признаки и значение целевого показателя/класса объекта (размеченные данные) и обучаем ее так, чтобы она могла спрогнозировать значение целевой переменной Y для новых данных (неразмеченных).

Читать дальше →

+24

info_habr 25 сен 2019 в 12:54

End2End-подход в задачах Automatic Speech Recognition

10 мин

24K

Алгоритмы*Машинное обучение*Блог компании МТСИскусственный интеллектIT-компании

Что такое End2End-распознавание речи, и зачем же оно нужно? В чем его отличие от классического подхода? И почему для обучения хорошей модели на основе End2End нам потребуется огромное количество данных — в нашем сегодняшнем посте.

Классический подход к распознаванию речи

Прежде чем рассказать про End2End-подход, стоит сначала поговорить про классический подход к распознаванию речи. Что он из себя представляет?

Читать дальше →

+14

ValdikSS 11 авг 2017 в 19:11

Автономный способ обхода DPI и эффективный способ обхода блокировок сайтов по IP-адресу

7 мин

701K

Сетевые технологии*

Провайдеры Российской Федерации, в большинстве своем, применяют системы глубокого анализа трафика (DPI, Deep Packet Inspection) для блокировки сайтов, внесенных в реестр запрещенных. Не существует единого стандарта на DPI, есть большое количество реализации от разных поставщиков DPI-решений, отличающихся по типу подключения и типу работы.

Существует два распространенных типа подключения DPI: пассивный и активный.

Пассивный DPI

Пассивный DPI — DPI, подключенный в провайдерскую сеть параллельно (не в разрез) либо через пассивный оптический сплиттер, либо с использованием зеркалирования исходящего от пользователей трафика. Такое подключение не замедляет скорость работы сети провайдера в случае недостаточной производительности DPI, из-за чего применяется у крупных провайдеров. DPI с таким типом подключения технически может только выявлять попытку запроса запрещенного контента, но не пресекать ее. Чтобы обойти это ограничение и заблокировать доступ на запрещенный сайт, DPI отправляет пользователю, запрашивающему заблокированный URL, специально сформированный HTTP-пакет с перенаправлением на страницу-заглушку провайдера, словно такой ответ прислал сам запрашиваемый ресурс (подделывается IP-адрес отправителя и TCP sequence). Из-за того, что DPI физически расположен ближе к пользователю, чем запрашиваемый сайт, подделанный ответ доходит до устройства пользователя быстрее, чем настоящий ответ от сайта.

Читать дальше →

+212

352

Vlomme 11 сен 2019 в 18:49

Архив олимпиадных задач по физике для школьников

1 мин

25K

Занимательные задачкиУчебный процесс в ITФизика

За долгое время работы в школе я сформировал банк задач по физике для подготовки к олимпиадам. Задачи можно искать по нужным темам, уровню, классу. Затем отправлять на печать, или в виде ссылки ученикам. И хотя я уже не работаю в школе, решил, что жалко добру пропадать. Сайт без рекламы и прочей монетизации. Если вы учитель физики, или родитель, добро пожаловать под кат.

Читать дальше →

+101

SLY_G 2 сен 2019 в 10:00

Математическая модель раскрывает секреты зрения

7 мин

32K

Математика*Мозг

Перевод

Математики и нейробиологи создали первую анатомически точную модель, объясняющую, как устроено зрение

Великая загадка человеческого зрения состоит в следующем: мы воспринимаем насыщенное изображение окружающего нас мира, при том, что зрительная система нашего мозга получает крайне мало информации о нём. Большую часть того, что мы «видим», на самом деле мы представляем в своей голове.

«Многое из того, что, как вам кажется, вы видите, вы на самом деле придумываете, — сказала Лай-Санг Янг, математик из Нью-Йоркского университета. – Реально вы их не видите».

Однако мозг, судя по всему, неплохо справляется с задачей изобретения зрительного мира, поскольку мы обычно не сталкиваемся с дверями. К сожалению, изучение одной лишь анатомии не показывает нам, как именно мозг создаёт эти изображения – не более, чем пристальное разглядывание двигателя автомобиля позволит вам раскрыть законы термодинамики.

Читать дальше →

+44

pustota_2009 1 сен 2019 в 14:30

Neuronomics. Идея для стартапа 2030 года

10 мин

12K

Машинное обучение*

Пять лет назад меня осенила идея. Я решил смоделировать ни много ни мало мировую экономику, для того чтобы точно знать какую динамику ожидать от акций, облигаций, курсов валют и т.д. Была только одна маленькая проблемка, модели всего этого не существует. И хуже того, экономисты десятки лет спорят, какая из их куцых эконометрических моделей хотя бы приблизительно верно описывает эти сложнейшие процессы. Поэтому, вместо попыток натянуть выдуманную (и конечно безумно упрощенную) модель на многоликую реальность я вступил на концептуально иной путь – моделировать агентов на микроуровне, чтобы они в изнуряющей борьбе за выживание, путем проб и ошибок приходили к равновесному состоянию, которое на макроуровне выражается в динамике цен, ставок и т.д.

Результат моих исследований описан ниже. Для визуализации записал движение агентов и каждый пиксель в этом видео, скрывает за собой нейросеть, т.е. мозг агента, бьющегося за выживание в конкуренции с подобными себе в жестоком мире наживы и чистогана.

Зачем это вообще нужно легко понять, например, по актуальным сейчас спорам вокруг «торговых войн». Одни (в основном профессиональные экономисты) говорят, что тарифы вредят в конечном итоге экономике в целом. Другие же думают, что страна окажется в выигрыше.

Проверить и доказать на фактах тут ничего нельзя, ведь никто не может поставить эксперимент при прочих равных на одной и той же экономике. Тогда как описанный ниже метод позволяет контролировать условия и получить доказательство наличия или отсутствия выгод того или иного решения.

+19

mkrentovskiy 27 авг 2019 в 13:48

Распознавание лиц на коленно-прикладном уровне

7 мин

16K

Работа с видео*Обработка изображений*DIY или Сделай сам

В общем и целом, распознавание лиц и идентификация людей по их результатам выглядит для аксакалов как подростковый секс — все о нем много говорят, но мало кто практикует. Понятно, что мы уже не удивляемся, что после загрузки фоточки с дружеских посиделок Facebook/VK предлагает отметить обнаруженных на снимке персон, но тут мы интуитивно знаем, что у соцсетей есть хорошее подспорье в виде графа связей персоны. А если такого графа нет? Впрочем, начнем по порядку.

Какой-то черт прется в дверь с коробкой

Читать дальше →

+22

SLY_G 27 авг 2019 в 14:00

Ложнопромышленный комплекс фальшивого искусственного интеллекта

8 мин

26K

Медийная реклама*Развитие стартапаИскусственный интеллект

Перевод

Как шумиха вокруг ИИ обогатила инвесторов, обманула СМИ и запутала всех остальных

Статья за авторством Майка Малаццо, выложенная им на сайте Medium, и по неизвестным причинам пропавшая оттуда спустя месяц.

Когда появились новости о том, что McDonalds покупает израильскую «ИИ-компанию» Dynamic Yield за $300 млн, главный редактор Wired Николас Томпсон предсказал, что эта продажа запомнится либо, как «пик шумихи по поводу ИИ», либо как «день, когда биг дата спасли Биг Мак».

Я, как бывший сотрудник Dynamic Yield, считаю, что время покажет, что он был прав в обоих случаях. Если правильно использовать технологии и таланты, то Dynamic Yield окупится много раз, сумев помочь компании McDonald лучше понять её клиентов. Но это не произойдёт благодаря ИИ. И всё же за те два года, что я был в этом стартапе, репортёры, аналитики, и иногда даже наши клиенты упорно называли нас «ИИ-компанией». Какое-то время мы открещивались от ярлыка «ИИ», понимая, что наша платформа в обозримом будущем не будет наступать на пятки системе IBM Watson. Но в итоге мы сдались, и решили просто не сопротивляться шумихе. Рынок хотел, чтобы мы были ИИ-компанией, и мы, посмеявшись, решили так и называться.

Читать дальше →

+45

BkmzSpb 26 авг 2019 в 23:23

Unsafe.AsSpan: Span<T> как замена указателям?

16 мин

10K

Ненормальное программирование*.NET*C#*

C# — невероятно гибкий язык. На нем можно писать не только бэкэнд или десктопные приложения. Я использую C# для работы, в том числе, и с научными данными, которые накладывают определенные требования на инструменты, доступные в языке. Хотя netcore захватывает повестку дня (учитывая, что после netstandard2.0 большинство фич как языков, так и рантайма, не бэк-портируются в netframework), я продолжаю работать и с легаси-проектами.

В этой статье я рассматриваю одно неочевидное (но, наверное, желаемое?) применение Span<T> и отличие реализации Span<T> в netframework и netcore из-за особенностей clr.

Добро пожаловать под кат

+24

Christina29 27 авг 2019 в 10:00

Как работают поисковые системы

28 мин

77K

Поисковые технологии*Блог компании ЯндексМатематика*IT-компании

Мы разбирали старые письма и наткнулись на статью, которую писал Илья Сегалович iseg для журнала «Мир Internet» в далёком 2002 году. В ней он сравнивает интернет и поисковые системы с чудесами света, размышляет о поисковых технологиях и вспоминает их историю. Несмотря на загруженность по работе, Илья написал статью в рекордные сроки и даже снабдил достаточно подробным словарём терминов, который особенно интересно читать в наши дни. Нам не удалось найти электронную версию журнала со статьей, поэтому сегодня мы публикуем её в нашем блоге, первым автором которого, к слову, был Илья.

Читать дальше →

+89

Syurmakov 15 авг 2019 в 16:52

Применение машинного обучения и Data Science в промышленности

22 мин

67K

Python*Блог компании VKData Mining*Big Data*Искусственный интеллект

Перевод

Хабр, привет. Перевел пост, который идёт строго (!) в закладки и передаётся коллегам. Он со списком блокнотов и библиотек ML и Data Science для разных отраслей промышленности. Все коды на Python, и размещены на GitHub. Они будут полезны как для расширения кругозора, так и для запуска своего интересного стартапа.

Отмечу, что если среди читателей есть желающие помочь, и добавить в любую из подотраслей подходящий проект, пожалуйста, свяжитесь со мной. Я их добавлю в список. Итак, давайте начнём изучение списка.

Читать дальше →

+65

MagisterLudi 13 авг 2019 в 16:18

Алексей Савватеев: Модели интернета и социальных сетей

8 мин

13K

Алгоритмы*Математика*Научно-популярноеСоциальные сети и сообщества

«Единственный смысл существование экономики — это воодушевление математиков на новые подвиги.»

В 2013 году Алексей Савватеев прочитал несколько лекций по моделям соцсетей и интернета. Я нашел эту тему очень любопытной и незаслуженно забытой. Попробуем разобраться в вопросе. А ещё мне интересно узнать, как изменилась ситуация с тех пор и какие полезные публикации есть в этой области.

И в интернете, и в биологии соцсети проявляют свойства, которые по отдельности описываются моделями, но все вместе — ставят в тупик современную математику. Савватеев утверждает, что «тот, кто с этим разберется получит Нобелевскую премию». Будущее будет зависеть от способности работать с сетями.

Ниже приводится скомпилированная выжимка из трёх видеозаписей лекций, само видео есть в конце. (Пост выглядит как набор слайдов с цитатами лектора, связать всё в единый и прилизанный текст у меня не хватает способностей к русскому языку и математике, но тема очень важная, поэтому хочу опубликовать.)

+33

sidristij 23 мая 2019 в 11:11

Оптимизация программ под Garbage Collector

5 мин

12K

Программирование*.NET*Системное программирование*C#*Блог компании Семинары Станислава Сидристого

Не так давно на Хабре появилась прекрасная статья Оптимизация сборки мусора в высоконагруженном .NET сервисе. Эта статья очень интересна тем, что авторы, вооружившись теорией сделали ранее невозможное: оптимизировали свое приложение, используя знания о работе GC. И если ранее мы не имели ни малейшего понятия, как этот самый GC работает, то теперь он нам представлен на блюдечке стараниями Конрада Кокоса в его книге Pro .NET Memory Management. Какие выводы почерпнул для себя я? Давайте составим список проблемных областей и подумаем, как их можно решить.

На недавно прошедшем семинаре CLRium #5: Garbage Collector мы проговорили про GC весь день. Однако, один доклад я решил опубликовать с текстовой расшифровкой. Это доклад про выводы относительно оптимизации приложений.

+40

goncharov_a_v 13 авг 2019 в 21:50

ConfigureAwait, кто виноват и что делать?

8 мин

33K

Программирование*.NET*C#*Параллельное программирование*Блог компании Семинары Станислава Сидристого

В своей практике я часто встречаю, в различном окружении, код вроде того, что приведен ниже:

[1] var x = FooWithResultAsync(/*...*/).Result;

//или
[2] FooAsync(/*...*/).Wait();

//или
[3] FooAsync(/*...*/).GetAwaiter().GetResult();

//или
[4] FooAsync(/*...*/)
    .ConfigureAwait(false)
    .GetAwaiter()
    .GetResult();

//или
[5] await FooAsync(/*...*/).ConfigureAwait(false)

//или просто
[6] await FooAsync(/*...*/)

Из общения с авторами таких строк, стало ясно, что все они делятся на три группы:

Первая группа, это те, кому ничего не известно о возможных проблемах с вызовом Result/Wait/GetResult. Примеры (1-3) и, иногда, (6), типичны для программистов из этой группы;
Ко второй группе относятся программисты, которым известно о возможных проблемах, но они не знают причин их возникновения. Разработчики из этой группы, с одной стороны, стараются избегать строк вроде (1-3 и 6), но, с другой, злоупотребляют кодом вроде (4-5);
Третья группа, по моему опыту самая малочисленная, это те программисты, которые знают о том, как код (1-6) работает, и, поэтому, могут сделать осознанный выбор.

Возможен ли риск, и на сколько он велик, при использовании кода, как в приведенных выше примерах, зависит, как я отмечал ранее, от окружения.

Читать дальше →

+34

khovansky 8 авг 2019 в 18:04

Генерируем одноразовые пароли для 2FA в JS с помощью Web Crypto API

9 мин

21K

Информационная безопасность*Веб-разработка*JavaScript*Программирование*

Туториал

Перевод

Введение

Двухфакторная аутентификация сегодня повсюду. Благодаря ей, чтобы украсть аккаунт, недостаточно одного лишь пароля. И хотя ее наличие не гарантирует, что ваш аккаунт не уведут, чтобы ее обойти, потребуется более сложная и многоуровневая атака. Как известно, чем сложнее что-либо в этом мире, тем больше вероятность, что работать оно не будет.

Уверен, все, кто читают эту статью, хотя бы раз использовали двухфакторную аутентификацию (далее — 2FA, уж больное длинное словосочетание) в своей жизни. Сегодня я приглашаю вас разобраться, как устроена эта технология, ежедневно защищающая бесчисленное количество аккаунтов.

Но для начала, можете взглянуть на демо того, чем мы сегодня займемся.

Читать дальше →

+23

fokus-lop 8 авг 2019 в 14:19

Шпаргалка для стажера: пошаговое решение задач на собеседовании Google

3 мин

17K

Программирование*Учебный процесс в ITБлог компании Skillbox

Перевод

В прошлом году последние пару месяцев я потратил на подготовку к собеседованию для стажировки в Google (Google Internship). Все прошло хорошо: я получил и работу, и отличный опыт.

Теперь, спустя два месяца после стажировки, я хочу поделиться документом, который использовал для подготовки к собеседованиям. Для меня это было чем-то типа шпаргалки перед экзаменом. Но процесс создания документа и постоянная пошаговая проверка по нему помогли мне запомнить все самое важное.

Читать дальше →

+13

shukshinivan 23 июл 2019 в 17:18

Математическое расследование, как подделывали выборы губернатора в Приморье 16 сентября 2018 года

19 мин

97K

Python*Big Data*Открытые данные*

Во втором туре выборов губернатора Приморского края 16 сентября 2018 года встречались действующий и.о. губернатора Андрей Тарасенко и занявший второе место в первом туре коммунист Андрей Ищенко. В ходе подсчета голосов на сайте ЦИК РФ отображалась информационная панель с растущим числом обработанных протоколов и голосов за кандидатов.

Публикация подробных данных по участкам на официальном сайте ЦИК www.izbirkom.ru замерла после ввода 1484 (95.74%) протоколов и не возобновлялась до самого конца. Поэтому когда в трансляции лидер голосования вдруг поменялся с Ищенко на Тарасенко, было неясно, как именно это могло произойти. В СМИ просто писали «после обработки 99,03% протоколов лидер сменился».

Однако, располагая промежуточными суммарными данными из информационной панели, с помощью простой математики и программирования можно подробно установить, что именно происходило с протоколами в ночь после выборов. Используем Python, Colab от Google и Z3 theorem prover от Microsoft Research. Ну и добьём всё обычной дедукцией.

И что же там можно расследовать?

+382

392

Syurmakov 17 июл 2019 в 00:32

Галерея лучших блокнотов по ML и Data Science

3 мин

33K

Python*Data Mining*Big Data*Машинное обучение*

Привет, читатель.

Меня зовут Рушан, и я автор Telegram‑канала Нейрон. Не забудьте поделиться с коллегами или просто с теми, кому интересны такие статьи. Представляю пост который идёт строго (!) в закладки и передаётся коллегам. Он с подборкой примечательных файлов формата Jupyter Notebook по Machine Learning, Data Science и другим сферам, связанным с анализом данных. Эти блокноты Jupyter, будут наиболее полезны специалистам по анализу данных — как обучающимся новичкам, так и практикующим профи.

Итак, приступим.

Вводные курсы в Jupyter Notebook

Читать дальше →

+27

PatientZero 17 июл 2019 в 10:44

Есть ли что-то общее у разных песен-хитов?

5 мин

15K

Python*Big Data*Визуализация данных*Социальные сети и сообществаЗвук

Перевод

Если выполнить вход на Spotify.me, то можно получить персонализированную сводку того, как Spotify понимает вас через музыку, которую вы слушаете на этом сайте Spotify. Это круто!

Я слушаю много музыки и люблю работать с данными, поэтому это вдохновило меня на попытку анализа моей коллекции музыки.

Мне было очень любопытно, существуют ли какие-то конкретные ингредиенты, из которых составлены хитовые песни. Что делает их крутыми? Почему нам нравятся хиты, и есть ли у них определённая «ДНК»?

Задача

Это привело меня к попытке ответить при помощи данных Spotify на два вопроса:

На что похож мой музыкальный плейлист?
Существуют ли конкретные атрибуты аудио, общие для всех хитовых композиций?

Инструменты

К счастью, есть очень простые инструменты, позволяющие подключиться к Spotify, получить данные, а затем визуализировать их.

Мы будем работать с языком программирования Python 3, библиотекой Python Spotipy, позволяющую подключаться к Spotify Web API, а визуализировать данные будем с помощью plot.ly и Seaborn.

Массив данных

В конце каждого кода Spotify компилирует плейлист из 100 самых часто воспроизводимых песен. Использованный мной массив данных уже выложен на Kaggle: Top Spotify Tracks of 2018. Список 100 самых популярных песен со Spotify кажется вполне разумным массивом данных для изучения хитов, не правда ли?

Читать дальше →

+15

Leono 15 июл 2019 в 17:10

Чемпионат по программированию: разбираем задачи для фронтенд-разработчиков

12 мин

36K

Спортивное программирование*Занимательные задачкиJavaScript*Блог компании ЯндексИнтерфейсы*

На днях победители чемпионата по программированию, который завершился в начале лета, получили заслуженные призы. Для этого мы позвали их, а также всех остальных финалистов из топ-20 каждого направления в московский офис Яндекса. Ещё раз поздравляем тех, кто сумел выйти в финал.

Тем временем мы подготовили разбор задач чемпионата, которые предлагались фронтенд-разработчикам. Это задачи из квалификационного этапа. Напоминаем, что чемпионат проводился по четырём направлениям: бэкенд, фронтенд, машинное обучение и аналитика.

A. Градусник пробок

Условие

Пользуясь навигатором, многие видели «градусник» при построении автомобильного маршрута. Он представляет собой разноцветную прямую, на которой изображена загруженность дорог на маршруте. В этой задаче предлагается написать функцию, которая адаптирует данные «градусника» для разных размеров экрана.

Читать дальше →

+28

1 2

4 5 ...

16 17