Articles / Bookmarks / Profile of io_io / Habr

How to become an author

User

Profile Publications 6Comments 5Bookmarks 20

io_io Aug 28 2015 at 12:13

Статистический метод обнаружения аномалий в eBay

4 min

11K

System Analysis and Design*Big Data*Data visualization*.io corporate blog

Translation

Сложные системы подвержены сбоям многих компонентов, поэтому вполне целесообразно разделить сбои на два класса. К первому можно отнести повторяющиеся сбои, которые возможно предупреждать (например, отказ жесткого диска) и выявлять с помощью непосредственных проверок. Ко второму классу относятся непредвиденные сбои.

Читать дальше →

+6

AlexeyStn Aug 19 2015 at 00:12

Открытка-лабиринт. Подарок, который невозможно открыть, не разгадав головоломку

4 min

61K

DIYGames and game consolesLogic games

Однажды я принёс другу на день рождения подарок, завёрнутый в бумагу с узором лабиринта. Друг пошутил, что было бы здорово, если бы надо было по-настоящему найти путь, чтобы открыть подарок. Мы принялись обсуждать, как можно построить механический лабиринт, причём без использования какой-либо электроники.
Так родилась идея к следующему празднику создать открытку-головоломку. В этой статье я расскажу, как её изготовить и какие тонкости нужно учесть.

Лабиринт в процессе прохождения.

Читать дальше →

+151

io_io Aug 19 2015 at 15:52

Как подобрать платье с помощью метода главных компонент

3 min

30K

System Analysis and Design*Data visualization*Machine learning*.io corporate blog

Translation

Итак, кто не против, чтобы одежду ему подбирала программа, машина, нейросеть?

Любой набор изображений возможно проанализировать с помощью метода главных компонент. Этот метод уже довольно успешно применяется при распознавании лиц. Мы же попробуем использовать его на примере женских платьев.

Читать дальше →

+51

io_io Aug 18 2015 at 15:08

Как легко понять логистическую регрессию

5 min

205K

System Analysis and Design*Big Data*Machine learning*.io corporate blog

Tutorial

Translation

Логистическая регрессия является одним из статистических методов классификации с использованием линейного дискриминанта Фишера. Также она входит в топ часто используемых алгоритмов в науке о данных. В этой статье суть логистической регрессии описана так, что она станет понятна даже людям не очень близким к статистике.

Читать дальше →

+13

io_io Aug 14 2015 at 13:11

Deep Dream: как обучить нейронную сеть мечтать не только о собаках

5 min

33K

System Analysis and Design*Data visualization*Machine learning*.io corporate blog

Tutorial

Translation

В июле всех порадовала статья про deep dream или инцепционизм от Google. В статье подробно рассказывалось и показывалось как нейронные сети рисуют картины и зачем их заставили это делать. Вот эта статья на хабре.

Теперь все, у кого настроена среда caffe, кому скучно и у кого есть свободное время могут сделать собственные фотки в стиле инцепционизм. Одна проблема — почти на всех фотках получаются собаки. Как же избавится от элементов с псами в изображениях deep dream и обучить свою нейронную сеть пользоваться другими картинками?

Читать дальше →

+21

io_io Aug 12 2015 at 13:57

MCMC и байесова статистика в BASIC

5 min

13K

System Analysis and Design*Small Basic*Big Data*Data visualization*.io corporate blog

Translation

BASIC был одним из самых распространенных языков программирования. В 80-х он шел в стандартном наборе программ на компьютере (например, Commodore 64 и Apple II), а в 90х и DOS и Windows 95 включали в себя QBasic IDE.

QBasic был также моим первым языком программирования. Я не программировал на Бейсике уже почти 20 лет и решил вспомнить этот действительно странный язык. Поскольку я провел много времени за байесовскими алгоритмами, я подумал, что будет интересно увидеть как байесовская аналитика будет выглядеть в утилите 20-летней давности.

Читать дальше →

+19

io_io Aug 7 2015 at 16:59

14 новых ролей в Big Data

4 min

23K

System Analysis and Design*Data Mining*SaaS / S+S*Big Data*.io corporate blog

Количество данных растет с каждым днем огромными рывками. Ежедневно в сеть заливается 2,3 триллиона гигабайт данных. К 2017 году ожидается, что количество данных вырастет на 800%. Чем больше данных, тем выше спрос на специалистов по их обработке.

Наука о данных настолько динамично развивается, что у каждого специалиста есть своя узкая зона ответственности. Мартин Джонс (Martin Jones), CEO и co-founder в Cambriano Energy предлагает выделить 14 основных ролей в работе с большими данными.

Читать дальше →

+6

peremen Aug 4 2015 at 14:09

В чем разница между наукой о данных, анализом данных, большими данными, аналитикой, дата майнингом и машинным обучением

4 min

41K

System Analysis and Design*Data Mining*Big Data*.io corporate blog

Recovery Mode

В последнее время слово big data звучит отовсюду и в некотором роде это понятие стало мейнстримом. С большими данными тесно связаны такие термины как наука о данных (data science), анализ данных (data analysis), аналитика данных (data analytics), сбор данных (data mining) и машинное обучение (machine learning).

Почему все стали так помешаны на больших данных и что значат все эти слова?

Читать дальше →

+11

peremen Jul 31 2015 at 18:28

Схемы отбора в выборку

4 min

14K

System Analysis and Design*Mathematics*.io corporate blog

Tutorial

Схема отбора в выборку — это детальное описание того, какие данные и каким способом будут получены. Есть много схем для отбора в выборку, поэтому нужно выбрать для исследований такую, которая даст наиболее репрезентативные результаты. Репрезентативность выборки — это соответствие характеристик выборки характеристикам популяции.

В идеале лучше работать со всей генеральной совокупностью, но это занимает много времени и ресурсов. Поэтому можно исследовать только ее часть, что и называется выборкой. Затем исследуются элементы, которые попали в выборку. На основе полученных значений оцениваются неизвестные элементы выборки.

Читать дальше →

+4

peremen Jul 28 2015 at 14:17

Кто такие контент-хакеры?

4 min

7.3K

System Analysis and Design*SaaS / S+S*.io corporate blog

По исследованиям IBM, 80% информации, добавляемой в интернет — это хаотичные, деструктивные и никому не нужные данные. А человечество использует лишь 0,5% всего объема.

Контент стратегия — один из маркетинговых трендов последних лет. 89% маркетологов, которые используют контент-продвижение, признались в его эффективности.

Планируя контент-стратегию, важно продумать как попасть в эти ничтожные 5% полезного траффика. Можно писать по 100500 статей в день и не получить даже тысячи прочтений. А можно стать контент-хакером и покорить мир.

Перед прочтением статьи лучше пройти тест на уровень контент-хакерства.

Читать дальше →

-3

peremen Jul 23 2015 at 11:02

Алгоритмы разума

5 min

21K

Algorithms*Machine learning*.io corporate blog

Translation

Наука всегда сопровождает технологию, изобретения дают нам новую пищу для размышлений и создают новые явления, которые еще предстоит объяснить.

Так говорит Арам Харроу (Aram Harrow), профессор физики Массачуссетского технологического в своей статье «Почему сейчас самое подходящее время для изучения квантовых вычислений».

Он считает, что с научной точки зрения энтропия не могла быть полностью изученной, пока технология парового двигателя не дала толчок к развитию термодинамики. Квантовые вычисления появились из-за потребности имитировать квантовую механику на компьютере. Так и алгоритмы человеческого разума могут быть изучены с появлением нейронных сетей. Энтропия используется во многих областях: например, при смарт кропе, в кодировании видео и изображений; в статистике.

Читать дальше →

+15

moccachin Jul 3 2015 at 15:42

Как реализовать конвертацию из растра в черно-белый вектор на сайте

3 min

25K

Vector graphics*.io corporate blog

Все графические файлы делятся на два глобальных типа — растровые и векторные. Иногда нужно сделать конвертацию из растра в черно-белый вектор. Например, для трассировки черно-белых иконок, QR-кодов, штрих-кодов, картинок с растровыми надписями, чеков или картинок в блоге.

Читать дальше →

+14

moccachin Jul 4 2015 at 16:14

Устройство WebP

3 min

23K

Image processing*.io corporate blog

WebP — сравнительно новый формат от Google. Картинки в этом формате занимают на 30% меньше места на странице благодаря особому сжатию, построенному на кодировании ключевых кадров в видеокодеке VP8.

WebP поддерживает сжатие с потерями и без, разные степени прозрачности, метаданные и может содержать встроенный ICC-профиль. Но пока не все браузеры и приложения поддерживают формат.

Читать дальше →

+30

moccachin Jul 8 2015 at 13:36

WebP vs BPG

2 min

18K

Image processing*.io corporate blog

Уже очень давно самыми популярными форматами остаются: JPEG — для lossy сжатия, PNG — для сжатия без потерь и GIF для анимации. Эти форматы поддерживаются всеми браузерами и веб-приложениями.

Но чем больше картинок заливается в интернет, тем острее ощущается потребность в лучшем формате. Для экономии места на сервере, для ускорения загрузки страницы и для экономии времени дизайнера.

Если измерить вес всех фотографий на странице — иногда можно получить сердечный приступ. Чем больше фотографий, тем больше весит страница и тем дольше она загружается.

Сейчас уже созданы несколько форматов, имеющих все шансы заменить и JPEG и GIF и PNG. Очень хорошие результаты показывают гугловский WebP и «свободный» BPG.

Читать дальше →

+9

moccachin Jul 9 2015 at 13:34

Когортный анализ: 3 кейса

2 min

66K

System Analysis and Design*.io corporate blog

Когортный анализ — метод анализа эффективности бизнеса. Суть состоит в том, чтобы анализировать поведение групп людей, объединенных по какому-либо признаку во времени.

Оценка продукта происходит не по итоговой метрике, а по каждой отдельной когорте этой метрики. Когорта — группа людей, которые сделали одно и то же действие в определенный период времени.

Читать дальше →

+7

moccachin Jul 10 2015 at 14:15

Как нейронные сети рисуют картины

3 min

167K

Algorithms*Image processing*.io corporate blog

Translation

Умные алгоритмы уже умеют находить и распознавать лица, определять главную часть картинки, узнавать различные предметы. А нейронные сети пошли дальше и даже могут самостоятельно создавать произведения искусства.

Недавно Google на своем блоге опубликовали интересный способ использования нейронных сетей, распознающих картинки. Далее свободный перевод публикации.

Читать дальше →

+71

moccachin Jul 15 2015 at 10:36

Что не так с сэмплированием

3 min

11K

System Analysis and Design*.io corporate blog

Сэмплирование данных значительно снижает нагрузку на вычислительные мощности. Но как можно судить о количестве дырок в сыре по одному куску? Что если из-за сэмплирования легко можно терять 20 тысяч и больше долларов в день?

Часто сэмплирование мешает проводить точный анализ потока данных, чему свидетельствует кейс под катом.

Читать дальше →

+3

moccachin Jul 16 2015 at 15:38

48 часов жизни вашей публикации на Хабре

3 min

13K

System Analysis and Design*SaaS / S+S*Data visualization*.io corporate blog

Кто-то с помощью Хабра пиарится, кто-то ведет свою контент стратегию, а кто-то просто делится интересной информацией. Но всем хочется знать заранее что будет с опубликованным материалом, будет он популярным или нет, понравится ли читателям. Можно ли предугадать сколько просмотров получит статья по первым трем часам ее жизни?

Читать дальше →

+11

moccachin Jul 20 2015 at 12:17

Что еще о вас может знать браузер

7 min

31K

System Analysis and Design*Browsers.io corporate blog

Всем известно, что находясь внутри браузера, нельзя извлечь достаточное количество информации о его пользователе с помощью простого JavaScript. Служебная информация, вроде имени браузерного движка, операционной системы и их версий хоть и дает общее представление о пользователе (и об аудитории в целом), но все же не является всеобъемлющей.

Для комплексного анализа пользователя используется User-ID в Universal Analytics, но с помощью независимых программных компонентов, запущенных и находящихся где-то в памяти компьютера рядом с браузером, тоже можно собирать данные о пользователе. Полученная непосредственно из памяти браузера информация позволит осуществить анализ как отдельного пользователя, так и всей аудитории. Здесь будет рассмотрено семейство браузеров на движке Webkit и на конкретном примере браузера Google Chrome.

Читать дальше →

+5

moccachin Jul 21 2015 at 11:15

Магия Universal Analytics

7 min

11K

System Analysis and Design*SaaS / S+S*Google API*.io corporate blog

Translation

Весь бизнес рано или поздно уйдет в интернет, а веб-аналитики станут бизнес-аналитиками. Уже сейчас в бизнес аналитике используются элементы веб.

Диджитал-аналитик — довольно узкая специальность — это всего лишь бизнес аналитик, который в основном работает в диджитал-мире и немного в реальном.

Скоро не будет разделений. Никакого диджитала, никакого веба, оффлайна — только все вместе.

Читать дальше →

+8