Вадим Марковцев @markhor

Head of Analytics

Профиль Публикации 19Комментарии 355Закладки 104

belgraviton 25 июн 2020 в 14:03

Рубрика «Читаем статьи за вас». Май 2020. Часть 2

13 мин

7.3K

Алгоритмы*Обработка изображений*Математика*Машинное обучение*Блог компании Open Data Science

Привет, Хабр! Продолжаем публиковать рецензии на научные статьи от членов сообщества Open Data Science из канала #article_essense. Хотите получать их раньше всех — вступайте в сообщество!

Статьи на сегодня:

ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks (China, 2020)
TAPAS: Weakly Supervised Table Parsing via Pre-training (Google, 2020)
DeepFaceLab: A simple, flexible and extensible faceswapping framework (2020)
End-to-End Object Detection with Transformers (Facebook AI, 2020)
Language Models are Few-Shot Learners (OpenAI, 2020)
TabNet: Attentive Interpretable Tabular Learning (Google Cloud AI, 2020)

Читать дальше →

+33

atd 17 июн 2020 в 15:35

Шпаргалка по SIMD-инструкциям, теперь и для .NET Core

2 мин

6.6K

.NET*C#*

Ни для кого не секрет, что в дотнет завезли интринсики. Я писал об этом и до того, как они появились и после. Плюс ещё посты на Хабре, например этот. И всё, казалось бы, замечательно, если бы не одно «но»: называются эти интринсики по-дотнетовски, а совсем не так как в ассемблере или C++.

Из-за этого трудно воспользоваться уже готовым векторизованным кодом, просто портировав его с плюсов. Так же тяжело будет и с адаптацией найденных на stackoverflow ответов и примеров )) Ведь для каждого вызова надо найти новое дотнетное название. А сделать это не так легко — если в MSDN искать называние плюсового интринсика, то найдутся только плюсовые статьи, и, может быть, где-то в самом конце то, что нам нужно.

Когда мне приходилось писать SIMD-код на плюсах, я пользовался очень хорошим ресурсом — officedaytime, где кратко и наглядно представлены все основные инструкции для x86-платформы. Я решил, что неплохо было бы заполучить такую шпаргалку и для дотнета.

Итак, не буду лить много воды, вот эта страница, адаптированная под netcore.

Читать дальше →

+20

belgraviton 3 июн 2020 в 14:06

Рубрика «Читаем статьи за вас». Апрель 2020. Часть 2

17 мин

5.5K

Алгоритмы*Обработка изображений*Математика*Машинное обучение*Блог компании Open Data Science

Статьи на сегодня:

Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization (Georgia Institute of Technology, Atlanta, USA, 2016)
X3D: Expanding Architectures for Efficient Video Recognition (Facebook AI Research, 2020)
Adaptive Attention Span in Transformers (Facebook AI Research, 2019)
ResNeSt: Split-Attention Networks (Amazon, 2020)
Weight Standardization (Johns Hopkins University, 2019)
Supervised Contrastive Learning (Google Research, MIT, 2020)
Improved Training Speed, Accuracy, and Data Utilization Through Loss Function Optimization (USA, 2019)
TTNet: Real-time temporal and spatial video analysis of table tennis (OSAI, 2020)
Learning in the Frequency Domain (Alibaba, Arizona, 2020)

Читать дальше →

+34

aragont 26 мая 2020 в 19:27

Как Linux'овский sort сортирует строки

19 мин

20K

Системное администрирование*Программирование*Разработка под Linux*

Туториал

Введение

Всё началось с короткого скрипта, который должен был объединить информацию об адресах e-mail сотрудников, полученных из списка пользователей почтовой рассылки, с должностями сотрудников, полученными из базы отдела кадров. Оба списка были экспортированы в текстовые файлы в кодировке Юникод UTF-8 и сохранены с юниксовскими концами строк.

Содержимое mail.txt

Иванов Андрей;ia@example.com

Содержимое buhg.txt

Иванова Алла;маляр
Ёлкина Элла;крановщица
Иванов Андрей;слесарь
Абаканов Михаил;маляр

Для объединения файлы были отсортированы юниксовской командой sort и поданы на вход юниксовской программе join, которая неожиданно завершилась с ошибкой:

$> sort buhg.txt > buhg.srt
$> sort mail.txt > mail.srt
$> join buhg.srt mail.srt > result
join: buhg.srt:4: is not sorted: Иванов Андрей;слесарь

Просмотр результата сортировки глазами показал, что в целом сортировка правильная, но в случае совпадений мужских и женских фамилий, женские идут перед мужскими:

$> sort buhg.txt
Абаканов Михаил;маляр
Ёлкина Элла;крановщица
Иванова Алла;маляр
Иванов Андрей;слесарь

Выглядит как глюк сортировки в Юникоде или как проявление феминизма в алгоритме сортировки. Первое, конечно, правдоподобнее.

Читать дальше →

+123

MutuLawyer 17 мая 2020 в 13:20

Сравниваем работу open source Python — библиотек для распознавания именованных сущностей

13 мин

22K

Open source*Python*Natural Language Processing*

Введение

Мы в компании создаем сервис, который позволяет автоматически создавать, управлять и безопасно хранить лицензионные соглашения и прочие договоры между фрилансерами и их клиентами.

Для решения это задачи я опробовал десятки решений в области обработки естественного языка, в том числе решения с открытым кодом и хотел бы поделиться опытом работы с open source Python — библиотеками для распознавания именованных сущностей.

Распознавание именованных сущностей

Несколько слов о самой проблеме. Named Entity Recognition (NER) — это направление технологии обработки человеческого языка, программная реализация которой позволяет находить в речи и тексте опредмеченные категории слов и словосочетаний. Сначала это были географические наименования, имена людей, организаций, адреса, однако в настоящее время это понятие сильной расширилось и с помощью NER мы ищем в тексте относительные и абсолютные даты, числа, номера и т.д.
Выявление именованных сущностей — это «ворота» в человеческий язык, оно позволяет выявлять и обрабатывать намерения человека, устанавливать связи слов в его речи и реальным миром.

Читать дальше →

+37

Savochkin 9 янв 2020 в 12:01

Управляя коллективом, нарушьте все правила

23 мин

40K

Управление проектами*Управление персоналом*Читальный залБлог компании ГК ЛАНИТ

В искусстве управления много противоречивых рецептов, и лучшие в мире менеджеры придерживаются своих собственных правил. Правы ли они и почему процесс найма в лидирующих на рынке компаниях устроен так, а не иначе? Нужно ли всеми силами пытаться преодолеть свои недостатки? Почему самоуправляемые команды часто не работают? На кого нужно тратить больше времени менеджеру — на лучших или худших сотрудников? Что за странные вопросы на собеседованиях Google? Прав ли начальник, когда указывает, как мне делать мою работу? Как вообще оценить, насколько я хорош как менеджер?

Если ответы на эти вопросы вас интересуют, то вам стоит почитать книгу Маркуса Бакингема и Курта Коффмана «Сначала нарушьте все правила: Что лучшие в мире менеджеры делают по-другому». Эта книга могла бы стать для меня настольной, но перечитывать нет времени, поэтому я сделал выжимку, которой и хочу с вами поделиться.

Читать дальше →

+78

MaxRokatansky 7 ноя 2019 в 18:00

Как стать хорошим менеджером? 4 способа восполнить пробел в навыках управления

5 мин

21K

Управление персоналом*Блог компании OTUS

Перевод

Перевод статьи подготовлен специально для студентов курса «Team Lead 2.0».

Как стать хорошим менеджером и восполнить пробелы в навыках управления бизнесом?
На сегодняшний день многие недооценивают необходимость грамотного менеджмента в бизнесе. Менеджмент – это сложно. Не только для менеджера, но и для бизнеса.

Мы не всегда понимаем, насколько сложно перейти от выполнения работы к управлению ею.

Это самое большое изменение, которое происходит с человеком по мере его продвижения по карьерной лестнице. И слишком часто получается так, что хороший работник становится управленцем без необходимых навыков, желания и понимания.

Читать дальше →

+19

TSSV 6 ноя 2019 в 12:09

Алгоритм нечеткого поиска TextRadar. Основные подходы (ч. 1)

5 мин

8.4K

Алгоритмы*

Из песочницы

В отличие от нечеткого сравнения строк, когда обе сравниваемые строки равнозначны, в задаче нечеткого поиска выделяются строка поиска и строка данных, а определить необходимо не степень похожести двух строк, а степень присутствия строки поиска в строке данных.

Постановка задачи

Даны строка данных и строка поиска как произвольные наборы символов, состоящие из слов – групп символов, разделенных пробелами.

Требуется найти в строке данных наиболее близкий к строке поиска по составу и взаимному расположения символов набор фрагментов.

Для оценки качества результата поиска вычислить коэффициент релевантности, значение которого должно лежать в диапазоне от 0 до 1, где 0 должен соответствовать полному отсутствию символов строки поиска в строке данных, а 1 – наличию строки поиска в строке данных в неискаженном виде.

Поиск должен осуществляться путем посимвольного анализа исходных строк, с учетом взаимного расположения символов и слов в строках, но без учета синтаксиса и морфологии языка.

Описание алгоритма

Поиск осуществляется в несколько этапов.

Построение матрицы совпадений

Матрица совпадений (M) представляет собой двумерную матрицу, количество столбцов которой соответствует длине строки данных, а количество строк – длине строки поиска. Элементы матрицы совпадений принимают значения 0 или 1 в зависимости от того, совпадают или нет соответствующие символы строк за исключением пробелов (разделителей слов).
Матрица совпадений для строки данных «ABCD EF» и строки поиска «ABC» имеет вид:

Читать дальше →

+19

Clickru 6 ноя 2019 в 10:06

Терминология Google Аналитики и Яндекс.Метрики: как не запутаться во всех этих данных

10 мин

23K

Интернет-маркетинг*Контекстная реклама*Поисковая оптимизация*Блог компании Click.ru

Терминология Google Аналитики и Яндекс.Метрики: как не запутаться во всех этих данных

Визиты, сеансы, входы, просмотры, посетители — это верхушка терминологического ада систем аналитики. Из-за массы похожих по своей сути метрик даже профи время от времени заглядывают в справку, чтобы уточнить те или иные термины. А что говорить о тех, кто только погружается в аналитику…

Мы собрали термины Google Аналитики и Яндекс.Метрики, с которыми чаще всего возникают проблемы. Рассказываем, что они означают и где смотреть значения метрик.

Если вы думаете, что знаете об этих терминах всё, — проверьте. Без сюрпризов не обойдется.

tyronead 28 окт 2019 в 15:03

Как выстроить процессы и перестать издеваться над командой

10 мин

55K

Управление разработкой*Управление проектами*Развитие стартапаУправление персоналом*

Всем привет! Сегодня хотел поговорить о процессах разработки. По мере роста компании не только развивается сам бизнес, но и копятся проблемы внутри, в частности в процессе разработки. Часто их пытаются решить внедрением каких-то практик и новомодных методологий. Увы, это насильное перестраивание процесса по книжкам и тренингам нередко это приводит к ещё большим проблемам — издевательству над людьми.

Недавно я выступал на конференции Saint TeamLead Conf 2019, в докладе я рассказал о том, как смог найти ряд проблем в рабочем процессе и потом постепенно поборол их. Здесь я постараюсь описать наиболее ценные практики, которые мне помогли не только наладить рабочий процесс, но и перестать издеваться над разработчиками. У сотрудников изменилось отношение к компании в целом и рабочему процессу.

+44

JetHabr 8 окт 2019 в 15:00

Обзор методов отбора признаков

7 мин

37K

Алгоритмы*Блог компании Инфосистемы ДжетМашинное обучение*

Перевод

Правильный отбор признаков для анализа данных позволяет:

повысить качество моделей машинного обучения с учителем и без,
уменьшить время обучения и снизить требуемые вычислительные мощности,
а в случае входных данных высокой размерности позволяет ослабить «проклятие размерности».

Оценка важности признаков необходима для интерпретации результатов модели.

Мы рассмотрим существующие методы отбора признаков для задач обучения с учителем и без. Каждый метод проиллюстрирован open source-реализацией на Python, чтобы вы могли быстро протестировать предложенные алгоритмы. Однако это не полная подборка: за последние 20 лет было создано множество алгоритмов, и здесь вы найдёте самые основные из них. Для более глубокого исследования ознакомьтесь с этим обзором.

Читать дальше →

+33

olegbunin 15 авг 2019 в 15:40

TCP против UDP или будущее сетевых протоколов

27 мин

170K

Высокая производительность*Программирование*Анализ и проектирование систем*Блог компании Конференции Олега Бунина (Онтико)Разработка систем связи*

Перед каждым сервисом, генерирующим хотя бы 1 Мбит/сек трафика в интернете возникает вопрос: «Как? по TCP или по UDP?» В прикладных областях, в том числе и платформах доставки уже сложились предпочтения и традиции принятия подобных решений.

По идее, если бы, к примеру, однажды один ленивый разработчик не попробовал развернуть свой ML на Python (потому что только его и знал), мир скорее всего никогда не проникся бы такой любовью к презренному «супер-джава-кодерами» языку. А сегодня слабости этого языка в прошлом контексте применения безоговорочно обеспечивают ему первенство в развертывании и запуске многочисленных майнерских А/Б.

Сравнивать можно многое: ARM с Intel, iOS и Android, а Mortal Kombat с Injustice. И нарваться на космический холивар, поэтому вернемся к теме доставки огромных объемов разноформатного контента.

Десять лет назад все были абсолютно уверены, UDP — это что-то про негарантированную доставку. Если нужен надежный протокол — это TCP. И вопреки традициям в этой статье мы будем сравнивать такие, кажущиеся несравнимыми вещи, как TCP и UDP.

Осторожно, под катом 99 иллюстраций и схем и все важные.

+156

m1rko 23 апр 2019 в 16:34

Каково быть мейнтейнером свободного ПО

3 мин

34K

Open source*Карьера в IT-индустрииЗдоровье

Перевод

2013 год. Я узнаю об альфе нового проекта под названием GNOME Calendar. Интересно.

Я люблю календари.

«Круто, буду следить за ним», — сказал я по молодости. В ветке ui-rework шла бурная разработка. Каждый день несколько новых коммитов. Скачать, собрать, протестировать. И вдруг коммитов не стало на целый день. И на следующий день тоже. Неделю, месяц, год… Я разочарован. Не хочется, чтобы такой замечательный проект погиб. Вы же понимаете…

Я люблю календари.

Читать дальше →

+126

259

ru_vds 8 апр 2019 в 12:00

Учебный курс по React, часть 26: архитектура приложений, паттерн Container/Component

12 мин

29K

Веб-разработка*JavaScript*ReactJS*Блог компании RUVDS.com

Туториал

Перевод

В этой части перевода учебного курса по React мы поговорим об архитектуре React-приложений. В частности, обсудим популярный паттерн Container/Component.

Читать дальше →

+20

FantAmp 10 янв 2019 в 10:47

Как расставить приоритеты в разработке. Опыт внедрения GIST + ICE в Яндекс.Маркете

4 мин

11K

Веб-разработка*Блог компании ЯндексУправление разработкой*Управление проектами*Управление продуктом*

Рассмотрим одно из подразделений Яндекс.Маркета. Оно довольно крупное — 85 человек. Внутри подразделения есть несколько команд. Команды либо занимаются функциональными частями Маркета, либо решают какую-то большую пользовательскую задачу. Вот одна из них: изменить сам сервис Яндекс.Маркет и интернет-торговлю в регионах так, чтобы местным пользователям стало удобнее решать свои проблемы.

С чего командам начать? Как объяснить всем вокруг, почему мы делаем одно, а не другое? Как донести до каждого инженера, зачем он занимается своей текущей задачей? Как вкладывать силы в то, что действительно улучшит мир вокруг, и не тратить время на то, что не нужно? Как сделать работу команд прозрачной друг для друга?

Чтобы лучше отвечать на эти и прочие вопросы, мы внедрили особый подход. В соответствии с ним мы разрабатываем продукты и расставляем приоритеты.

Читать дальше →

+22

bdmoiseev 25 сен 2018 в 10:05

Как Яндекс применил компьютерное зрение для повышения качества видеотрансляций. Технология DeepHD

7 мин

71K

Блог компании ЯндексОбработка изображений*Машинное обучение*Искусственный интеллектIT-компании

Когда люди ищут в интернете картинку или видео, они часто прибавляют к запросу фразу «в хорошем качестве». Под качеством обычно имеется в виду разрешение — пользователи хотят, чтобы изображение было большим и при этом хорошо выглядело на экране современного компьютера, смартфона или телевизора. Но что делать, если источника в хорошем качестве просто не существует?

Сегодня мы расскажем читателям Хабра о том, как с помощью нейронных сетей нам удается повышать разрешение видео в режиме реального времени. Вы также узнаете, чем отличается теоретический подход к решению этой задачи от практического. Если вам не интересны технические детали, то можно смело пролистать пост – в конце вас ждут примеры нашей работы.

В интернете много видеоконтента в низком качестве и разрешении. Это могут быть фильмы, снятые десятки лет назад, или трансляции тв-каналов, которые по разным причинам проводятся не в лучшем качестве. Когда пользователи растягивают такое видео на весь экран, то изображение становится мутным и нечётким. Идеальным решением для старых фильмов было бы найти оригинал плёнки, отсканировать на современном оборудовании и отреставрировать вручную, но это не всегда возможно. С трансляциями всё ещё сложнее – их нужно обрабатывать в прямом эфире. В связи с этим наиболее приемлемый для нас вариант работы — увеличивать разрешение и вычищать артефакты, используя технологии компьютерного зрения.

+202

169

ikashnitsky 23 июл 2018 в 01:40

Сборник демографических рассказов в одной карте

2 мин

16K

Open source*R*Открытые данные*Визуализация данных*Научно-популярное

В свежем номере журнала The Lancet опубликована моя статья — любопытная карта и небольшое к ней пояснение. Решил рассказать об этом на Хабре, поскольку есть надежда, что реализованный способ визуализации данных может пригодиться еще кому-то.

Kashnitsky, I., & Schöley, J. (2018). Regional population structures at a glance. The Lancet, 392(10143), 209–210. https://doi.org/10.1016/S0140-6736(18)31194-2

Собственно, вот карта в высоком разрешении (кликабельно).

Карту можно воспроизвести точь-в-точь за несколько минут, код на гитхабе.

Данные создают цвета

Читать дальше →

+73

olegbunin 20 фев 2018 в 21:00

Как лучше разбираться в людях

31 мин

102K

Блог компании Конференции Олега Бунина (Онтико)Управление разработкой*Управление проектами*Управление сообществом*Управление персоналом*

Рассказывать айтишникам про психологию то еще дело, некоторые читатели скажут: «Bullshit!», и вообще не поверят, потому что психологию, даже прикладную, нельзя назвать точной наукой. Тем не менее, задача этой статьи — показать и доказать вам, что некоторые модели действительно работают. В основе доклад Сергея Котырева из UMI на РИТ++ 2017, от его лица дальше и пойдет повествование.

Я — IT-предприниматель с 20 летним стажем. Так получилось, что с самого начала карьеры мне пришлось управлять людьми. Как выпускник технического вуза и айтишник, я изначально понял, что люди сложно поддаются алгоритмизации, и вообще осознанию, пониманию и прогнозированию.

Позже я пришел к мысли, что люди — это вообще самое сложное, с чем приходится работать. Сейчас я думаю, что люди вообще, наверное, самое сложное, что есть во Вселенной.

Мне кажется, о поведении и предсказании поведения спиральных галактик мы знаем больше, чем о том, как поведет себя человек, например, моя жена, сотрудник, или особенно сотрудница моего отдела маркетинга, не говоря уже о пиарщицах. О том, что ближайшая к нам Галактика летит, и через сколько-то миллиардов лет столкнется с нашей, мы уже знаем точно.

+99

Siarshai 26 окт 2017 в 09:07

Нестандартная кластеризация 5: Growing Neural Gas

13 мин

18K

Data Mining*Алгоритмы*Математика*Машинное обучение*

Часть первая — Affinity Propagation
Часть вторая — DBSCAN
Часть третья — кластеризация временных рядов
Часть четвёртая — Self-Organizing Maps (SOM)
Часть пятая — Growing Neural Gas (GNG)

Доброго времени суток, Хабр! Сегодня я бы хотел рассказать об одном интересном, но крайне малоизвестном алгоритме для выделения кластеров нетипичной формы — расширяющемся нейронном газе (Growing Neural Gas, GNG). Особенно мало информации об этом инструменте анализа данных в рунете: статья в википедии, рассказ на Хабре о сильно изменённой версии GNG и пара статей с одним лишь перечислением шагов алгоритма — вот, пожалуй, и всё. Весьма странно, ведь мало какие анализаторы способны работать с меняющимися во времени распределениями и нормально воспринимают кластеры экзотической формы — а это как раз сильные стороны GNG. Под катом я попробую объяснить этот алгоритм сначала человеческим языком на простом примере, а затем более строго, в подробностях. Прошу под кат, если заинтриговал.

(На картинке: нейронный газ осторожно трогает кактус)

Читать дальше →

+28

blognetology 17 авг 2017 в 16:31

Как писать нормальные тексты на английском, не будучи носителем языка

10 мин

88K

Блог компании Нетология

Ксения Каланова, выпускница нашего курса по копирайтингу и маркетолог в MERA, написала колонку для блога Нетологии о том, как заставить текст звучать «по-английски», даже когда до уровня Advanced еще далеко.

Вся моя жизнь связана с английским языком: школьные олимпиады, подготовка к вступительным экзаменам в вуз, пять лет на переводческом факультете, лето в США и путешествия по миру. В студенческие годы я работала письменным переводчиком, а сразу после выпуска — устным.

С тех пор как я устроилась маркетологом в международную IT-компанию, ко мне все чаще обращаются с просьбами написать или отредактировать англоязычные тексты IT-тематики.

Если бы не опыт работы переводчиком, меня такие просьбы поставили бы в ступор. Ведь мой текст увидят иностранцы — клиенты компании, руководители!

В этой статье я поделюсь секретами, как заставить текст звучать «по-английски», если вы не носитель языка. Для этого расскажу о 5 основных ошибках, которые мешают написать нормальный англоязычный текст.

Читать дальше →

+99

3 4 5