Как стать автором

Software Engineer

Профиль Публикации 4Комментарии 25Закладки 178

cointegrated 21 июн 2020 в 17:26

Как предсказать гипероним слова (и зачем). Моё участие в соревновании по пополнению таксономии

8 мин

12K

Python*Алгоритмы*ХакатоныМашинное обучение*Natural Language Processing*

Как может машина понимать смысл слов и понятий, и вообще, что значит — понимать? Понимаете ли вы, например, что такое спаржа? Если вы скажете мне, что спаржа — это (1) травянистое растение, (2) съедобный овощ, и (3) сельскохозяйственная культура, то, наверное, я останусь убеждён, что вы действительно знакомы со спаржей. Лингвисты называют такие более общие понятия гиперонимами, и они довольно полезны для ИИ. Например, зная, что я не люблю овощи, робот-официант не стал бы предлагать мне блюда из спаржи. Но чтобы использовать подобные знания, надо сначала откуда-то их добыть.

В этом году компьютерные лингвисты организовали соревнование по поиску гиперонимов для новых слов. Я тоже попробовал в нём поучаствовать. Нормально получилось собрать только довольно примитивный алгоритм, основанный на поиске ближайших соседей по эмбеддингам из word2vec. Однако этот простой алгоритм каким-то образом оказался наилучшим решением для поиска гиперонимов для глаголов. Послушать про него можно в записи моего выступления, а если вы предпочитаете читать, то добро пожаловать под кат.

Читать дальше →

+23

AlexanderPetrenko 21 июн 2020 в 22:07

Метод главных компонент: аналитическое решение

23 мин

21K

Python*Математика*Машинное обучение*Учебный процесс в ITИскусственный интеллект

Туториал

В этой статье мы залезем под капот одному из линейных способов понижения размерности признакового пространства данных, а именно, подробно ознакомимся с математической стороной метода главных компонент (Principal Components Analysis, PCA).

Читать дальше →

+4

dima_borisenkov 11 мая 2020 в 17:34

Алгоритм распознавания номера на изображении с низкой вероятностью ошибки второго рода

6 мин

7.9K

Обработка изображений*Машинное обучение*Искусственный интеллект

Из песочницы

В индустрии существует целый ряд кейсов, требующих распознавания номера по фотографии
(scene number recognition). Часто требуемым условием для алгоритма распознавания является низкое значение ошибки второго рода, а именно случаи, когда распознается неверный номер. В качестве примера таких задач можно привести:

Распознавание номера на скидочных, банковских картах, рисунок 1.
Распознавание номера автомобиля, рисунок 2.

Рисунок 1 – Карта лояльности
Рисунок 2 – Изображение, содержащее регистрационный номер в низком качестве

Среди проблем, связанных с распознаванием номера, можно выделить:

Большое разнообразие шрифтов;
Отсутствие зависимости между предыдущими и последующими символами номера (в отличие от задачи распознавания текста);
Высокий уровень шумов по причине того, что съемка ведется в различных условиях освещенности, с разного оборудования и т.д.

Задача

Разработать алгоритм распознавания номера на изображении (scene number recognition) при обязательном условии: ошибка второго рода должна быть не больше 0.03.

Читать дальше →

+15

alexey_nichnikov 11 мая 2020 в 22:51

Перевод книги Эндрю Ына «Страсть к машинному обучению» Главы 49 и 50

4 мин

2.9K

Профессиональная литература*Машинное обучение*

Перевод

предыдущие главы

49. За и против сквозного обучения

Продолжим рассматривать систему распознавания речи:

Большинство элементов этого конвейера созданы без применения машинного обучения (разработаны людьми или hand-designed):

MFCC — это набор звуковых признаков, извлекаемых математическими манипуляциями с частотами, не требующими обучающихся алгоритмов. При этом обеспечивается удобная свертка входящего сигнала с потерей не значимой информации.
Фонемы — изобретение лингвистов. При помощи них создается упрощенная модель звуков живой речи. Как и всякая модель сложного явления, фонемы не совершенны, качество работы системы, частью которой они являются, ограничено их несовершенным отражением реальности.

С одной стороны не обучаемые алгоритмы (hand-engineered components) ограничивают потенциальную производительность речевой системы. С другой их использование имеет определенные преимущества:

Функции MFCC устойчивы к некоторым свойствам речи, не влияющим на смысл сказанного, например к тональности голоса. Их применение упрощает задачу для обучаемого алгоритма.
Фонемы, если они правильно отражают звуки реальной речи, помогают обучающемуся алгоритму уловить основные звуковые элементы, повышая качество его работы

Читать дальше →

+4

Zmey56 3 мая 2020 в 21:37

Использование метода Монте-Карло для создания портфеля

4 мин

12K

Python*Машинное обучение*Финансы в IT

Начинающие (да и не только) инвесторы часто задаются вопросом о том, как отобрать для себя идеальное соотношение активов входящих в портфель. Часто (или не очень, но знаю про двух точно) у некоторых брокеров эту функцию выполняет торговый робот. Но заложенные в них алгоритмы не раскрываются.

В этом посте будет рассмотрено то, как оптимизировать портфель при помощи Python и симуляции Монте Карло. Под оптимизацией портфеля понимается такое соотношение весов, которое будет удовлетворять одному из условий:

Читать дальше →

+4

GlobalSign_admin 4 мая 2020 в 16:09

Прямая передача файлов между устройствами по WebRTC

2 мин

12K

Информационная безопасность*Криптография*Open source*Блог компании GlobalSignСофт

Новый сервис WebWormHole работает как портал, через который файлы передаются с компьютера на другой. Нажимаете кнопку New Wormhole — и получаете код для входа. Человек с другой стороны вводит такой же код или URL — и между вами устанавливается эфемерный туннель, по которому напрямую передаются файлы. Очень просто и эффективно. Исходный код на Github.

Читать дальше →

+19

Skolopendriy 24 апр 2017 в 14:00

Открытый курс машинного обучения. Тема 9. Анализ временных рядов с помощью Python

27 мин

340K

Python*Алгоритмы*Математика*Машинное обучение*Блог компании Open Data Science

Доброго дня! Мы продолжаем наш цикл статей открытого курса по машинному обучению и сегодня поговорим о временных рядах.

Посмотрим на то, как с ними работать в Python, какие возможные методы и модели можно использовать для прогнозирования; что такое двойное и тройное экспоненциальное взвешивание; что делать, если стационарность — это не про вас; как построить SARIMA и не умереть; и как прогнозировать xgboost-ом. И всё это будем применять к примеру из суровой реальности.

UPD 01.2022: С февраля 2022 г. ML-курс ODS на русском возрождается под руководством Петра Ермакова couatl. Для русскоязычной аудитории это предпочтительный вариант (c этими статьями на Хабре – в подкрепление), англоговорящим рекомендуется mlcourse.ai в режиме самостоятельного прохождения.

Видеозапись лекции по мотивам этой статьи в рамках второго запуска открытого курса (сентябрь-ноябрь 2017).

Читать дальше →

+51

fisher 18 дек 2013 в 17:05

Легко ли научить робота проходить тест для программистов?

11 мин

17K

Алгоритмы*Блог компании BadooМатематика*

Из этой статьи читатель узнает о том, как написать робота, проходящего тесты, и немножко «разомнет мозги» в теории вероятностей, разбираясь вместе с автором, почему при кажущейся сложности задачи автоматический подбор решения сходится за очень короткое время. Предупреждение: половина статьи ― «матан».

Введение

Несколько лет назад я сделал тест для программистов, который многим, скорее всего, не понравится. Если вы пишете на языке PHP, ваша любимая СУБД ― MySQL, а в качестве операционной системы вы предпочитаете Linux ― попробуйте его пройти. Заранее предупреждаю, тест своеобразный. Успешно его проходит всего несколько процентов испытуемых. Так что не стоит переживать. Если вы его не пройдете ― ничего страшного. Тест «заточен» под определенные навыки, которые требуются далеко не везде.

Получить отличный результат в тесте сложно. Поэтому некоторые испытуемые прибегают к черной магии ― пишут бота. Хорошее дело, между прочим. «Настойчивость и храбрость, отвага и удача, в беде не растеряться ― вот главная задача!» Поэтому капчи в тесте не было. Никогда. Наоборот, мне хотелось, чтобы ботов писали. Чтобы боты приходили. Чтобы тест выстоял, боты обломались, а «ботописатели» не жульничали, а учились.

В тесте 80 вопросов, из которых для каждого испытания случайным образом выбирается 25. У меня был простой (и, как потом выяснилось, абсолютно неверный) расчет. Чтобы тест нельзя было пройти, заучив или подобрав ответы, общая база вопросов изначально должна быть существенно больше, чем количество вопросов в одном испытании. Общее количество комбинаций тестов составляет число порядка 10²⁰. «Раз число такое большое, значит, и подобрать ответы будет очень сложно», ― думал я. Конечно, число сочетаний ― очень грубая оценка. Но задача автоматического подбора интуитивно казалась мне если и решаемой, то такими затратами, на которые ботописатель не пойдет. Думать так было большой ошибкой. Битву с ботами я проиграл. Дальше расскажу, почему.

Осторожно, матан!

+51

Razoomnick 29 апр 2020 в 16:00

Как мы стали создавать карточки товаров автоматически

8 мин

8.3K

Алгоритмы*Разработка под e-commerce*Управление e-commerce*

В своей прошлой статье я рассказал, как мы научились автоматически сопоставлять товары по наименованиям.То есть, понимать, например, что

Гарнитура A4Tech Bloody G501 черный

и

A4 G501, черно(красные) {Наушники с микрофоном, 2.2м}

— это одно и то же. Это дало возможность автоматизировать все, что связано с ценами и наличием. В этой статье я расскажу, как мы пошли дальше и автоматизировали работу с характеристиками и изображениями товаров.

Читать дальше →

+2

kriot 29 апр 2020 в 14:58

Учим нейросети в Google Таблицах

5 мин

11K

Ненормальное программирование*Машинное обучение*Блог компании Юла

Хочу с вами зачелленджить одну интересную штуку: попробовать обучить нейросеть в Google Таблицах. Безо всяких макросов и прочих хаков, на чистых формулах.

Читать дальше →

+33

greenEkatherine 28 апр 2020 в 09:26

Подготовка к собеседованиям в IT-гиганты: как я преодолела проклятье алгоритмического собеседования

12 мин

204K

Программирование*Учебный процесс в ITКарьера в IT-индустрииIT-компании

Технотекст 2020

Дисклеймер:

Я не программирую с трёх лет, не знаю наизусть Кнута, не являюсь призёром олимпиад по информатике и чемпионатов по спортивному программированию, не училась в MIT. У меня за плечами образование по информатике и 6 лет опыта в коммерческой разработке. И до недавнего времени я не могла пройти дальше первого технического скрининга в IT-гиганты из FAANG (Facebook, Amazon, Apple, Netflix, Google и подобные), хотя предпринимала несколько попыток.

Но теперь всё изменилось, я получила несколько офферов и хочу поделиться опытом, как можно к этому прийти. Речь пойдёт о позиции Software Engineer в европейских офисах перечисленных компаний.

Читать дальше →

+191

Sciberia 22 апр 2020 в 13:57

Три подводных камня машинного обучения и как их избежать

8 мин

3.8K

Машинное обучение*Блог компании Sciberia

Перевод

Ученые из бесчисленных областей обращаются к алгоритмическому анализу данных, Патрик Райли из Google призывает к четким стандартам научных исследований и отчетов.

Инженеры TAE Technologies и Google в Калифорнии используют машинное обучение для оптимизации оборудования, производящего высокоэнергетическую плазму. Источник: Liz Kuball.

Читать дальше →

+5

Acribia 4 июн 2018 в 12:02

Про хранение паролей в БД

5 мин

86K

Информационная безопасность*Блог компании Акрибия

Сегодня посмотрим, как лучше всего хранить пароли в базе данных и как известные платформы решают эту задачу.

Читать дальше →

+16

madrugado 15 апр 2020 в 15:28

Машинный перевод. От Холодной войны до наших дней

6 мин

4.8K

Data Mining*Машинное обучение*Блог компании HuaweiИскусственный интеллектNatural Language Processing*

Машинный перевод в последние годы получил очень широкое распространение. Наверняка, большинство моих читателей хоть раз пользовались сервисами Google.Translate или Яндекс.Перевод. Также вероятно, что многие помнят, что не так уж и давно, лет 5 назад пользоваться автоматическими переводчиками было очень непросто. Непросто в том смысле, что они выдавали перевод очень низкого качества. Под катом краткая и неполная история машинного перевода, из которой будет виден в этой задаче и некоторые его причины и последствия. А для начала картинка, которая показывает важную концепцию относительно машинного перевода:

Читать дальше →

+6

Russell_Zab 16 апр 2020 в 10:50

Использование алгоритмов ML для классификации многостраничных документов: опыт ВТБ

10 мин

7.1K

Машинное обучение*Блог компании ВТБФинансы в ITIT-компании

В рамках кредитных конвейеров юридических лиц банки запрашивают у компаний оригиналы различных документов. Зачастую сканы этих документов поступают в виде единого многостраничного файла – «потока». Для удобства использования потоки нужно сегментировать на отдельные документы (одностраничные или многостраничные) и классифицировать их. Под катом мы расскажем о применении алгоритмов машинного обучения в классификации уже сегментированных документов.

Читать дальше →

+7

danilchenkoandrey 16 апр 2020 в 11:03

Как мы учились рекомендовать фильмы и почему не стоит полагаться только на оценки

8 мин

17K

Поисковые технологии*Блог компании ЯндексМашинное обучение*Искусственный интеллект

Представьте, что вы хотите провести вечер за просмотром фильма, но не знаете, какой выбрать. Пользователи Яндекса часто оказываются в такой же ситуации, поэтому наша команда разрабатывает рекомендации, которые можно встретить в Поиске и Эфире. Казалось бы, что тут сложного: берём оценки пользователей, с их помощью обучаем машину находить фильмы, которым с высокой вероятностью поставят 5 баллов, получаем готовый список фильмов. Но этот подход не работает. Почему? Вот об этом я сегодня и расскажу вам.

Читать дальше →

+34

romas1982 16 апр 2020 в 12:56

Гибкое управление Data Science-продуктами

16 мин

10K

Блог компании Конференции Олега Бунина (Онтико)Машинное обучение*Управление проектами*Agile*Управление персоналом*

Асхат Уразбаев был программистом, руководил IT-командами, но заинтересовался Agile и основал компанию ScrumTrek, которая помогает компаниям внедрять гибкие подходы.

Однажды в ScrumTrek за помощью обратилась компания с data science-продуктами. Казалось бы, работа понятна и схема отработана: рассказать, что такое Agile, собрать бэклог, запустить спринт — 3 дня работы. 3, не 3, но через 3 месяца точно что-то начнет получаться, а через 3 года вообще все будет отлично.

Оказалось, не так все просто.

87% data science-проектов никогда не попадают в прод. То есть не просто не укладываются в бюджеты и сроки, а вообще не доходят до использования в продакшене. Почему так происходит и как все-таки можно внедрить гибкие методологии в data science, Асхат Уразбаев рассказал на TeamLead Conf, а мы сделали из этого статью.

+24

ZEvS_Poisk 11 апр 2020 в 22:38

Как я отказался от вычисления квадратного корня

14 мин

47K

Assembler*Алгоритмы*

Из песочницы

Очень часто при цифровой обработке сигналов необходимо вычислить длину вектора, обычно это делается по формуле A=SQRТ(X^2+Y^2). Здесь возвести в квадрат значение не сложно, но операция вычисления квадратного корня не является простой операцией, особенно для микроконтроллеров. Кроме того, алгоритмы вычисления корня выполняются не стабильное время, и для алгоритмов, в которых таких вычислений много, становится сложно прогнозировать время, необходимое для вычислений.

С такой задачей столкнулся и я. О том, как я отказался от процедуры вычисления корня, читайте ниже.

Читать дальше →

+112

Center2M 10 апр 2020 в 18:00

Как мы считаем людей с помощью компьютерного зрения

8 мин

7.7K

Обработка изображений*Машинное обучение*Блог компании Центр 2М

Фото из открытых источников

Массовые скопления людей создают проблемы в самых разных областях (ритейл, госслужбы, банки, застройщики). Заказчикам необходимо объединять и мониторить информацию о количестве людей во множестве мест: в офисах обслуживания, административных помещениях, на строительных площадках и т. д.

Задачи подсчета людей имеют готовые решения, например применение камер со встроенной аналитикой. Однако во многих случаях важно использовать большое количество камер, ранее уже установленных в разных отделениях. Кроме того, решение, учитывающее специфику конкретного заказчика, окажется для него более качественным.

Нас зовут Татьяна Воронова и Эльвира Дяминова, мы занимаемся анализом данных в компании Center 2M. Хотя тема кажется наиболее простой из того, что сейчас рассматривается в задачах компьютерного зрения, даже в этой задаче, когда дело доходит до практики (внедрения), приходится решать много сложных и нетривиальных подзадач. Цель нашей статьи – показать сложности и основные подходы к задачам компьютерного зрения на примере решения одной из базовых задач. Для последующих материалов мы хотим привлечь коллег: девопса, инженера, руководителей проектов по видеоаналитике, чтобы они рассказали про задействованные вычислительные ресурсы, замеры скорости, нюансы общения с заказчиками и проектные истории внедрения. Мы же остановимся на некоторых использовавшихся методах анализа данных.

Читать дальше →

+15

10 апреля 2020

Защита персональной информации клиентов банка: как она работает?

Часто в комментариях на Хабре приходится встречать высказывания, что российские банки не умеют хранить персональные данные, да и вообще не очень-то расположены защищать клиента, например, при покупках через интернет. На самом деле система безопасности банков продумана лучше, чем может показаться. На примере Газпромбанка разбираемся в деталях защиты данных клиентов.

Подробности — под катом

+13

1

2 3 ...