Articles / Bookmarks / Profile of night_bat / Habr

How to become an author

Вадим @night_bat^{read⁠-⁠only}

Пользователь

Profile Bookmarks 62

Arhimagic Jan 18 2018 at 16:34

Feature Engineering, о чём молчат online-курсы

7 min

25K

VK corporate blogData Mining*Big Data*Machine learning*Studying in IT

Sherlock by ThatsWhatSheSayd

Чтобы стать великим сыщиком, Шерлоку Холмсу было достаточно замечать то, чего не видели остальные, в вещах, которые находились у всех на виду. Мне кажется, что этим качеством должен обладать и каждый специалист по машинному обучению. Но тема Feature Engineering’а зачастую изучается в курсах по машинному обучению и анализу данных вскользь. В этом материале я хочу поделиться своим опытом обработки признаков с начинающими датасаентистами. Надеюсь, это поможет им быстрее достичь успеха в решении первых задач. Оговорюсь сразу, что в рамках этой части будут рассмотрены концептуальные методы обработки. Практическую часть по этому материалу совсем скоро опубликует моя коллега Osina_Anya.

Один из популярных источников данных для машинного обучения — логи. Практически в любой строчке лога есть время, а если это web-сервис, то там будут IP и UserAgent. Рассмотрим, какие признаки можно извлечь из этих данных.

Читать дальше →

+49

PuzzleEnglish Jan 9 2018 at 16:39

Как вести переговоры с англоговорящими коллегами: инструкция

5 min

20K

Puzzle English corporate blog

Tutorial

Многие взрослые студенты начинают подтягивать свой английский в первую очередь для работы. Английский уже давно является языком международного бизнеса: где бы вы ни находились, с какими бы компаниями ни вели дела, чаще всего все переговоры и сделки по продаже ведутся на английском языке. Курсы бизнес-английского обычно знакомят вас с самой ходовой лексикой, например, названием должностей, структурой компаний и навыками бизнес-переписки. Но чаще всего вам придется вести переговоры, будь то переговоры по телефону или лично. С чего начать планирование переговоров и нужно ли их вообще планировать? Какая лексика потребуется в самом начале? Уместен ли small talk в бизнес-переговорах? Разбираемся с основами.

Читать дальше →

+21

blognetology Oct 19 2017 at 11:44

Деловая переписка на английском языке: фразы и советы

18 min

601K

IT careerНетология corporate blog

Елена Соловьева, менеджер проектов в компании Лаборатория Касперского, специально для блога Нетологии поделилась советами о том, как вести деловую переписку с иностранными коллегами и партнерами на английском языке. Статья участвует в конкурсе.

Электронные сообщения дают возможность быстро обмениваться информацией на больших расстояниях. По скорости передачи идеи это приравнивает их к телефонному разговору. Однако электронные письма сохраняются на почтовых серверах и используются как печатное свидетельство наших слов. Поэтому электронная переписка требует ответственного отношения.

Задача становится сложнее, если вы общаетесь на неродном английском языке с представителями других культур. В статье я поделюсь, на что в этом случае обратить внимание, как избежать ошибок и достичь взаимопонимания с иностранными коллегами и партнерами.

Читать дальше →

+96

Kaspersky_Lab Aug 21 2017 at 14:21

Шесть мифов о блокчейне и Биткойне, или Почему это не такая уж эффективная технология

9 min

206K

Information Security*«Лаборатория Касперского» corporate blog

Автор статьи — Алексей Маланов, эксперт отдела развития антивирусных технологий «Лаборатории Касперского»

Неоднократно слышал мнение о том, что блокчейн — это очень круто, это прорыв, за ним будущее. Спешу вас разочаровать, если вы вдруг поверили в это.

Уточнение: в этом посте мы поговорим о том варианте реализации технологии блокчейн, который используется в криптовалюте Биткойн. Существуют другие применения и реализации блокчейна, в некоторых из них устранены какие-либо недостатки «блокчейна классического», но обычно они построены на одинаковых принципах.

Читать дальше →

+163

Arseny_Info Apr 3 2017 at 14:07

Открытый курс машинного обучения. Тема 6. Построение и отбор признаков

24 min

183K

Python*Data Mining*Algorithms*Machine learning*Open Data Science corporate blog

Сообщество Open Data Science приветствует участников курса!

В рамках курса мы уже познакомились с несколькими ключевыми алгоритмами машинного обучения. Однако перед тем как переходить к более навороченным алгоритмам и подходам, хочется сделать шаг в сторону и поговорить о подготовке данных для обучения модели. Известный принцип garbage in – garbage out на 100% применим к любой задаче машинного обучения; любой опытный аналитик может вспомнить примеры из практики, когда простая модель, обученная на качественно подготовленных данных, показала себя лучше хитроумного ансамбля, построенного на недостаточно чистых данных.

UPD 01.2022: С февраля 2022 г. ML-курс ODS на русском возрождается под руководством Петра Ермакова couatl. Для русскоязычной аудитории это предпочтительный вариант (c этими статьями на Хабре – в подкрепление), англоговорящим рекомендуется mlcourse.ai в режиме самостоятельного прохождения.

Читать дальше →

+52

mephistopheies Apr 5 2017 at 14:23

Байесовские многорукие бандиты против A/B тестов

20 min

62K

Python*Mathematics*Web services testing*Machine learning*Open Data Science corporate blog

Здравствуйте, коллеги. Рассмотрим обычный онлайн-эксперимент в некоторой компании «Усы и когти». У неё есть веб-сайт, на котором есть красная кнопка в форме прямоугольника с закругленными краями. Если пользователь нажимает на эту кнопку, то где-то в мире мурлычет от радости один котенок. Задача компании — максимизация мурлыкания. Также есть отдел маркетинга, который усердно исследует формы кнопок и то, как они влияют на конверсию показов в клико-мурлыкания. Потратив почти весь бюджет компании на уникальные исследования, отдел маркетинга разделился на четыре противоборствующие группировоки. У каждой группировки есть своя гениальная идея того, как должна выглядеть кнопка. В целом никто не против формы кнопки, но красный цвет раздражает всех маркетологов, и в итоге было предложено четыре альтернативных варианта. На самом деле, даже не так важно, какие именно это варианты, нас интересует тот вариант, который максимизирует мурлыкания. Маркетинг предлагает провести A/B/n-тест, но мы не согласны: и так на эти сомнительные исследования спущено денег немерено. Попробуем осчастливить как можно больше котят и сэкономить на трафике. Для оптимизации трафика, пущенного на тесты, мы будем использовать шайку многоруких байесовских бандитов (bayesian multi-armed bandits). Вперед.

Читать дальше →

+63

nanton Jul 13 2017 at 10:12

Красный, белый, голубой: восемь правил подбора цветовой палитры, которые должны знать все

10 min

80K

Web design*Interfaces*Mobile applications design*Graphic design*InlyIT corporate blog

Translation

Взаимодействие человека с компьютером во многом опирается на графические элементы интерфейса, и цвет играет в этом процессе не последнюю роль. Как однажды сказал Pierre Bonnard: «Цвет не просто делает дизайн приятным для глаз, но и подкрепляет его».

Проектируя новый продукт, дизайнеры часто затрудняются с составлением цветовой гаммы, так как существует неограниченное число возможных сочетаний. В этой статье мы рассмотрим восемь основных правил, которые могут помочь вам с выбором.

Читать дальше →

+46

atomlib Nov 7 2016 at 21:56

youtube-dl, или как скачать видео с YouTube в качестве 1080p и выше

5 min

334K

Видеохостинг YouTube — второй по посещаемости сайт в мире. Его смотрят с умных телевизоров, игровых и телевизионных приставок, настольных компьютеров и ноутбуков, планшетов и смартфонов. Не все из этих устройств требуют одинаковой картинки. Сетевая природа сервиса и потокового видео предполагает, что на сайте должны быть доступны опции просмотра в разном качестве.

Качество картинки на YouTube варьируется от 144p (144 строчки в прогрессивной развёртке) до 8K 4320p. Последнее видео в четыре раза крупнее 4К 2160p, в шестнадцать — 1080p, в тридцать шесть — 720p, который также называют HD.

Мало какой компьютер может проиграть это видео в его полном разрешении, а доступных по цене 8K-мониторов в мире просто нет.

Технология MPEG-DASH разбивает контент на куски, а браузер запрашивает эти сегменты автоматически. Логично хранить и отдавать отдельно видео и звук. У DASH есть жирный плюс: адаптивность воспроизведения.

Несколько лет назад пользователи YouTube заметили введение DASH по тому, что буферизация видео больше не шла до конца ролика, а ограничивалась примерно минутой. Около того же времени другая проблема возникла у скачивающих видео с YouTube. Внезапно обнаружилось, что ролики с качеством 1080p доступны в виде файлов без звука. Сайты-сервисы, которые раньше выдавали ссылки на скачивание видео, отдавали лишь 720p, не выше. Около 1080p стояло «без звука» или «только видео».

Читать дальше →

+42

navff Dec 4 2016 at 07:32

Психология убеждения. Как убеждать других и уметь распознавать манипуляции

14 min

132K

Community management*Sales management*Personnel Management*IT career

Эта статья — некраткий конспект книги Роберта Чалдини «Психология убеждения». Будет полезна всем, кто имеет дело с людьми, продажами и бизнесом. Книга настолько полезна, что должна оказаться на полке каждого. Помимо того, что мы хотим влиять на окружающих, очень полезно знать, когда окружающие пытаются повлиять на нас. Внутри вы найдёте множество способов убеждения и, сразу после прочтения, будете с лёгкостью замечать, когда вами пытаются манипулировать.

Читать дальше →

+44

InlyIT Feb 3 2017 at 13:49

Игры с ценой: стратегии и психология покупателя

6 min

18K

InlyIT corporate blog

Translation

Про стратегии ценообразования сказано уже достаточно много. Даже те, кто не занимается маркетингом профессионально, знают, что потребителем активно манипулируют, разными приемами уменьшая стоимость товара в его глазах. Сегодня мы предлагаем вам прочитать перевод свежего поста Jory MacKay на эту наболевшую тему, в которой он рассматривает некоторые особенности нашей психологии и перечисляет фишки, которые помогают сделать цену на любой продукт более привлекательной для покупателя.

«Несмотря на то, что в некоторых кругах говорить о деньгах по-прежнему не принято, факт остается фактом – мы живем тем, что взимаем плату за работу, которую делаем, и за продукты, которые производим.

Но «ценность» относится к тем понятиям, которые, пусть ими и бросаются с легкостью, оказываются очень сложными, если как следует вдуматься.

Многие попадаются в ловушку трудовой теории стоимости, согласно которой цена услуги определяется тем, сколько рабочего времени было затрачено на ее производство. Именно поэтому мы готовы потратить 12 $ на баночку джема, если на этикетке написано, что он «ручной работы» или «домашний». Нам представляется, что «художник» вложил в процесс больше труда, чем «ремесленник».

Читать дальше →

+14

ConceptDesigner Mar 14 2017 at 18:43

Хорошо ли подсказывают сервисы подсказок: измеряем полезность веб-сервисов автодополнения

20 min

14K

Web design*Interfaces*Usability*

Примерно месяц назад со мной произошёл один эпизод, который заставил задуматься на тему полезности функций автодополнения, которые часто встраиваются на сайтах интернет магазинов. Обычно это выглядит так: начинаешь оформлять заказ, вводишь своё имя, телефон и адрес доставки, и пока ты неспешно набираешь адрес, перед тобой выскакивают подсказки с названиями улиц, чтобы ты не напрягал клавиатуру и выбирал нужный адрес из предложенного списка.

Так вот, в феврале мне потребовалось оперативно накормить дома большую компанию друзей, и я решила заказать пиццу в одном достаточно популярном заведении. Вообще обычно я придерживаюсь принципов здорового питания, но ситуация была исключительной…

Вы скажете Хабр – не место для историй про пиццу, и будете абсолютно правы, но данная история не совсем про пиццу, она в большей степени про моделирование поведения человека, про нагрузочное тестирование, немного про программирование, и в большей степени про числовую оценку полезности нескольких современных ajax-сервисов автодополнения и подсказок.

Читать дальше →

+54

eteresh Mar 23 2017 at 09:21

Как оценить качество системы A/B-тестирования

11 min

26K

Website development*IT systems testing*Programming*hh.ru corporate blogWeb services testing*

Вот уже более полугода в компании используется единая система для проведения A/B-экспериментов. Одной из самых важных частей этой системы является процедура проверки качества, которая помогает нам понять, насколько мы можем доверять результатам A/B-тестов. В этой статье мы подробно опишем принцип работы процедуры проверки качества в расчете на тех читателей, которые захотят проверить свою систему A/B-тестирования. Поэтому в статье много технических деталей.

Читать дальше →

+31

crazyhatter May 17 2017 at 13:47

CRISP-DM: проверенная методология для Data Scientist-ов

16 min

70K

Data Mining*Algorithms*Machine learning*ГК ЛАНИТ corporate blog

Постановка задач машинного обучения математически очень проста. Любая задача классификации, регрессии или кластеризации – это по сути обычная оптимизационная задача с ограничениями. Несмотря на это, существующее многообразие алгоритмов и методов их решения делает профессию аналитика данных одной из наиболее творческих IT-профессий. Чтобы решение задачи не превратилось в бесконечный поиск «золотого» решения, а было прогнозируемым процессом, необходимо придерживаться довольно четкой последовательности действий. Эту последовательность действий описывают такие методологии, как CRISP-DM.

Методология анализа данных CRISP-DM упоминается во многих постах на Хабре, но я не смог найти ее подробных русскоязычных описаний и решил своей статьей восполнить этот пробел. В основе моего материала – оригинальное описание и адаптированное описание от IBM. Обзорную лекцию о преимуществах использования CRISP-DM можно посмотреть, например, здесь.

* Crisp (англ.) — хрустящий картофель, чипсы

Читать дальше →

+51

bredd_owen Feb 14 2017 at 17:15

Создаём нейронную сеть InceptionV3 для распознавания изображений

11 min

137K

Python*Algorithms*Image processing*Machine learning*

Привет, Хабр! Под катом пойдёт речь о реализации свёрточной нейронной сети архитектуры InceptionV3 с использованием фреймворка Keras. Статью я решил написать после ознакомления с туториалом "Построение мощных моделей классификации с использованием небольшого количества данных". С одобрения автора туториала я немного изменил содержание своей статьи. В отличие от предложенной автором нейронной сети VGG16, мы будем обучать гугловскую глубокую нейронную сеть Inception V3, которая уже предустановлена в Keras.

Вы научитесь:

Импортировать нейронную сеть Inception V3 из библиотеки Keras;
Настраивать сеть: загружать веса, изменять верхнюю часть модели (fc-layers), таким образом, приспосабливая модель под бинарную классификацию;
Проводить тонкую настройку нижнего свёрточного слоя нейронной сети;
Применять аугментацию данных при помощи ImageDataGenerator;
Обучать сеть по частям для экономии ресурсов и времени;
Оценивать работу модели.

При написании статьи я ставил перед собой задачу представить максимально практичный материал, который раскроет некоторые интересные возможности фреймворка Keras.

Читать дальше →

+39

LukinB Feb 2 2017 at 11:59

Что я хотел бы знать об акциях и долях, прежде чем стать частью стартапа-единорога

7 min

16K

Translation

Ограничение ответственности: настоящая статья написана анонимно. Упомянуто несколько конкретных компаний, но лишь в качестве общего примера.

Данный пост коротко рассказывает о том, что я хотел бы знать и продумать до поступления на работу в какую-либо закрытую акционерную (частную) компанию (она же стартап, она же «единорог» в некоторых случаях — при оценке стоимости выше $1 млрд).

Я не пытаюсь показать, что не следует присоединяться к такой компании, но неравенство сил (возможностей) учредителя и наёмного работника в ней является экстремальным, а потенциальным кандидатам не мешало бы рассмотреть альтернативы.

Представленная здесь информация не является новой или оригинальной, но целью данной статьи является представить все основные положения в одном месте.

Читать дальше →

+23

i_Alexander Jan 11 2017 at 10:05

Как ИП сэкономить на налогах в 13,3 раз

7 min

63K

FreelanceStart-up developmentLegislation in ITIT careerRegberry.ru corporate blog

Если вы не торопитесь легализовать свою предпринимательскую деятельность только потому, что налоги ИП кажутся вам неподъемным бременем, то вы просто не умеете их готовить. Разобраться в основных нюансах систем налогообложения стоит уже ради экономии собственных денег. А сэкономленные деньги, как известно, ничуть не хуже заработанных. Так что, немного терпения, и вы станете чуть-чуть богаче.

Читать дальше →

+14

lleo Sep 13 2016 at 09:48

Как мы искали компромисс между точностью и полнотой в конкретной задаче ML

5 min

7.5K

hh.ru corporate blogData Mining*Big Data*Machine learning*

Я расскажу о практическом примере того, как мы формулировали требования к задаче машинного обучения и выбирали точку на кривой точность/полнота. Разрабатывая систему автоматической модерации контента, мы столкнулись с проблемой выбора компромисса между точностью и полнотой, и решили ее с помощью несложного, но крайне полезного эксперимента по сбору асессорских оценок и вычисления их согласованности.

Читать дальше →

+17

Roman_Kh Oct 26 2016 at 09:59

Automatic Relevance Determination или машинное обучение когда данных очень мало

4 min

13K

Python*Data Mining*Mathematics*Machine learning*

Когда речь заходит про машинное обучение, обычно подразумевают большие объемы данных — миллионы или даже миллиарды транзакций, из которых надо сделать сложный вывод о поведении, интересах или текущем cостоянии пользователя, покупателя или какого-нибудь аппарата (робота, автомобиля, дрона или станка).
Однако в жизни обычного аналитика самой обычной компании много данных встречается нечасто. Скорее даже наоборот — у вас будет мало или очень мало данных — буквально десятки или сотни записей. Но анализ все же нужно провести. Причем не какой попало анализ, а качественный и достоверный.

Зачастую ситуация усугубляется еще и тем, что вы без труда можете нагенерить для каждой записи много признаков (чаще всего добавляют полиномы, разницу с предыдущим значением и значением за прошлый год, one-hot-encoding для категориальных признаков и т.п.). Вот только совсем нелегко разобраться, какие из них действительно полезны, а какие только усложняют модель и увеличивают ошибки вашего прозноза.

Для этого вы можете воспользоваться методами байесовой статистики, например, Automatic Relevance Determination.

+24

kdenisk Oct 12 2016 at 19:06

Как собрать биграммы для корпуса любого размера на домашнем компьютере

5 min

19K

Semantics*Data Mining*Algorithms*Big Data*Machine learning*

В современной компьютерной лингвистике биграммы, или в общем случае n-граммы, являются важным статистическим инструментом. В статье мы расскажем с какими трудностями можно столкнуться при расчёте биграмм на большом корпусе текстов и приведём алгоритм, который можно использовать на любом домашнем компьютере.

Читать дальше →

+15

anastasiagrishina Nov 10 2016 at 16:20

12 кейсов по биг дате: подтвержденные примеры из индустрии, когда биг дата приносит деньги

8 min

35K

Data Mining*Big Data*New Professions Lab corporate blogMachine learning*

Хабр, привет! Проанализировали кейсы по big data, в которых технологии больших данных помогли компаниям более эффективно работать с клиентами или оптимизировать внутренние процессы.

Кстати, совсем скоро у нас стартует первый набор программы Big Data for Executives, цель которой подготовить руководителя или владельца бизнеса к использованию данных в своей деятельности. Почитать о ней подробнее можно здесь.

Читать дальше →

+12

1