Как стать автором

Александр @netrain

CTO, backend developer

Профиль Публикации 2Комментарии 142Закладки 470

xaliulina 11 июн 2021 в 17:20

Еда будущего. Как изменится привычный рацион питания через 10 лет

7 мин

16K

Научно-популярноеБудущее здесьБлог компании РСХБ.цифра (Россельхозбанк)

Постоянно растущий ассортимент продуктов питания изменит вкусовые предпочтения людей, а технологии продолжат предлагать новое и инновационное — представим, как это изменит наш рацион питания в 2030 году.

Читать далее

+1

salaxieb 13 авг 2020 в 16:28

Обзор методов создания эмбедингов предложений, Часть1

18 мин

11K

Python*Data Mining*Natural Language Processing*

Представте себе, как было бы удобно, написать предложение и найти похожее к нему по смыслу. Для этого нужно уметь векторизовать всё предложение, что может быть очень не тривиальной задачей.

По специфике своей работы, я должен искать похожие запросы в службу поддержки и даже имея достаточно большую разметку, бывает тяжело собрать необходимое количество сообщений подходящих по тематике, но написанных другими словами.

Ниже обзорное исследование на способы векторизации всего предложения и не просто векторизации, а попытка векторизовать предложение с учётом его смысла.

Например две фразы 'эпл лучше самсунг' от 'самсунг лучше эпл', должны быть на противоположном конце по одному из значений вектора, но при этом совпадать по другим.

Можно привести аналогию с картинкой ниже. По шкале от кекса до собаки они находятся на разных концах, а по количеству чёрных точек и цвету объекта на одном.

Читать дальше →

+8

FooBar167 20 апр 2020 в 17:05

Новые архитектуры нейросетей

10 мин

50K

Обработка изображений*Машинное обучение*Научно-популярноеИскусственный интеллект

Новые архитектуры нейросетей

Network

Предыдущая статья «Нейросети. Куда это все движется»

В этой статье кратко рассматриваются некоторые архитектуры нейросетей, в основном по задаче обнаружения объектов, чтобы найти (или хотя бы попытаться найти) будущие направления в этой быстро развивающейся области.

Статья не претендует на полноту охвата и хорошее понимание прочитанных «по диагонали» статей. Автор уверен, что пока писал эту статью, появилось еще много новых архитектур. Например, смотрите здесь: https://paperswithcode.com/area/computer-vision.

Читать дальше →

+25

tuxxon 14 апр 2020 в 10:37

Сотни тысяч маршрутов в секунду на ядро. Опыт Яндекс.Маршрутизации

5 мин

14K

Блог компании ЯндексАлгоритмы*Серверная оптимизация*Геоинформационные сервисы*Транспорт

Пару недель назад Даня Тарарухин рассказал на Хабре, как появился наш сервис, Яндекс.Маршрутизация, и как он помогает компаниям с логистикой. Создавая платформу, мы решили несколько интересных проблем, одной из которых и посвящён сегодняшний пост. Я хочу поговорить о самом планировании маршрутов и необходимых для этого ресурсах.

Читать дальше →

+29

dmitrii-bu 14 апр 2020 в 20:16

Повышение производительности с использованием uop-кэша на Sandy Bridge+

15 мин

6.6K

Высокая производительность*Assembler*C*

В современных x86 процессорах Intel конвеер можно разделить на 2 части: Front End и Back End.

Front End отвечает за загрузку кода из памяти и его декодирование в микрооперации.

Back End отвечает за выполнение микроопераций, пришедших от Front End. Поскольку эти микрооперации могут выполняться ядром не по порядку, то Back End также следит за тем, чтобы результат выполнения этих микроопераций строго соответствовал порядку в котором они идут в коде.

В большинстве случаев неэффективное использование Front End'a не оказывает заметного влияние на производительность. Пиковая пропускная способность на большинстве процессоров Intel — 4 микрооперации за такт, поэтому, например, для Memory/L3-bound кода ЦПУ не сможет полностью ее утилизировать.

Про относительно новый Ice Lake

Если верить официальной документации, то пиковая пропускная способность у Ice Lake была увеличена с 4 до 5 микроопераций за такт. К сожалению, доступа к этой модели цпу у меня нет, поэтому убедиться в этом на практике не представляется возможным.

Однако в некоторых случаях различие в производительности может быть достаточно существенно. Под катом — анализ влияния кэша микроопераций на производительность.

Читать дальше →

+37

Javian 29 мар 2020 в 00:18

Ультрафиолетовая стерилизационная коробка для повторного использования одноразовых масок

9 мин

29K

БиотехнологииDIY или Сделай самЗдоровье

Туториал

Перевод

В последнее время возник большой интерес к использованию ультрафиолетового излучения в качестве потенциального способа стерилизации защитного оборудования для повторного использования, например, такого как дорогостоящие маски типа «N95».

В этой статье я бы хотел описать сборку коробки для обеззараживания предметов ультрафиолетовым излучением и немного проанализировать методы ультрафиолетовой стерилизации.

Соблюдайте технику безопасности

+15

Gilyaru 21 мар 2020 в 14:59

Конспект по методам прогнозирования

4 мин

4.3K

Big Data*Машинное обучение*

Данный текст является продолжением серии статей, посвященных краткому описанию основных методов анализа данных. В предыдущий раз мы осветили методы классификации, сейчас рассмотрим способы прогнозирования. Под прогнозированием будем понимать поиск конкретного числа, которое ожидается получить для нового наблюдения или для будущих периодов. В статье указаны названия методов, их краткое описание и скрипт на Python. Конспект может быть полезен перед собеседованием, в соревновании или при запуске нового проекта. Предполагается, что аудитория знает эти методы, но имеет необходимость быстро освежить их в памяти.

Читать дальше →

+6

ua-hosting 1 янв 2020 в 21:16

Артур Хачуян: «Настоящая Big Data в рекламе»

31 мин

24K

IT-инфраструктура*Big Data*Блог компании ua-hosting.companyМедийная реклама*Контекстная реклама*

14 марта 2017 года в лектории BBDO выступил Артур Хачуян, генеральный директор Social Data Hub. Артур рассказал про интеллектуальный мониторинг, построение поведенческих моделей, распознавание фото- и видеоконтента, а также о других инструментах и исследованиях Social Data Hub, которые позволяют таргетировать аудиторию, используя социальные сети и технологии Big Data.

+33

ContentAI_Team 11 дек 2019 в 15:53

Как сделать из нейросети журналиста, или «Секреты сокращения текста на Хабре без лишних слов»

10 мин

13K

Блог компании Content AIМашинное обучение*Искусственный интеллектDIY или Сделай сам

Только не удивляйтесь, но второй заголовок к этому посту сгенерировала нейросеть, а точнее алгоритм саммаризации. А что такое саммаризация?

Это одна из ключевых и классических задач Natural Language Processing (NLP). Она заключается в создании алгоритма, который принимает на вход текст и на выходе выдаёт его сокращённую версию. Причем в ней сохраняется корректная структура (соответствующая нормам языка) и правильно передается основная мысль текста.

Такие алгоритмы широко используются в индустрии. Например, они полезны для поисковых движков: с помощью сокращения текста можно легко понять, коррелирует ли основная мысль сайта или документа с поисковым запросом. Их применяют для поиска релевантной информации в большом потоке медиаданных и для отсеивания информационного мусора. Сокращение текста помогает в финансовых исследованиях, при анализе юридических договоров, аннотировании научных работ и многом другом. Кстати, алгоритм саммаризации сгенерировал и все подзаголовки для этого поста.

К моему удивлению, на Хабре оказалось совсем немного статей о саммаризации, поэтому я решил поделиться своими исследованиями и результатами в этом направлении. В этом году я участвовал в соревновательной дорожке на конференции «Диалог» и ставил эксперименты над генераторами заголовков для новостных заметок и для стихов с помощью нейронных сетей. В этом посте я вначале вкратце пробегусь по теоретической части саммаризации, а затем приведу примеры с генерацией заголовков, расскажу, какие трудности возникают у моделей при сокращении текста и как можно эти модели улучшить, чтобы добиться выдачи более качественных заголовков.

Читать дальше →

+26

miptru 2 дек 2019 в 14:30

NLU по-русски: ELMo vs BERT

9 мин

9.6K

Блог компании Московский физико-технический институт (МФТИ)Машинное обучение*Искусственный интеллектNatural Language Processing*

В данной статье речь пойдет о машинном обучении как части искусственного интеллекта. ИИ во многом подразумевает под собой разговорную составляющую, ведь общение – то, что делает нас людьми. Соответственно, если мы будем делать системы, которые могут нас понимать, отвечать на наши слова, мы в какой-то степени приблизимся к разработке искусственного интеллекта. Однако это все теория на грани философии. Давайте перейдем к практике.

Читать дальше →

+5

rssdev10 15 ноя 2019 в 11:45

Julia NLP. Обрабатываем тексты

27 мин

6K

Программирование*Julia*Natural Language Processing*

Туториал

Анализ и обработка текстов на естественном языке является постоянно актуальной задачей, которая решалась, решается и будет решаться всеми доступными способами. На сегодня хотелось бы поговорить о средствах решения для решения этой задачи, именно, на языке Julia. Безусловно, в виду молодости языка, здесь нет столь развитых средств анализа, как, например Stanford CoreNLP, Apache OpenNLP, GATE и пр., как, например, для языка Java. Однако, даже уже разработанные библиотеки, вполне могут использоваться как для решения типовых задач, так и быть рекомендованными в качестве точки входа для студентов, которым интересна область обработки текстов. А синтаксическая простота Julia и её развитые математические средства, позволяют с лёгкостью погрузиться в задачи кластеризации и классификации текстов.

Читать дальше →

+17

ioff 30 окт 2019 в 08:06

RabbitMQ против Kafka: отказоустойчивость и высокая доступность в кластерах

14 мин

38K

Высокая производительность*Мессенджеры*Блог компании ITSummaBig Data*Распределённые системы*

Перевод

Отказоустойчивость и высокая доступность — большие темы, так что посвятим RabbitMQ и Kafka отдельные статьи. Данная статья о RabbitMQ, а следующая — о Kafka, в сравнении с RabbitMQ. Статья длинная, так что устраивайтесь поудобнее.

Рассмотрим стратегии отказоустойчивости, согласованности и высокой доступности (HA), а также компромиссы, на которые приходится идти в каждой стратегии. RabbitMQ может работать на кластере узлов — и тогда классифицируется как распределенная система. Когда речь заходит о распределенных системах, мы часто говорим о согласованности и доступности.

Эти понятия описывают, как система ведет себя при сбое. Сбой сетевого соединения, сбой сервера, сбой жесткого диска, временная недоступность сервера из-за сборки мусора, потеря пакетов или замедление сетевого соединения. Все это может привести к потере данных или конфликтам. Оказывается, практически невозможно поднять систему, одновременно и полностью непротиворечивую (без потери данных, без расхождения данных), и доступную (будет принимать операции чтения и записи) для всех вариантов сбоя.

Читать дальше →

+44

DesertFlow 4 окт 2019 в 21:43

PDDM — Новый Model-Based Reinforcement Learning алгоритм с улучшенным планировщиком

7 мин

7.3K

Искусственный интеллект

Обучение с подкреплением (Reinforcement Learning) делится на два больших класса: Model-Free и Model-Based. В первом случае действия оптимизируются напрямую по сигналу награды, а во втором нейросеть является только моделью реальности, а оптимальные действия выбираются с помощью внешнего планировщика. У каждого подхода есть свои достоинства и недостатки.

Разработчики из Berkeley и Google Brain представили Model-Based алгоритм PDDM с улучшенным планировщиком, позволяющий эффективно обучаться сложным движениям с большим числом степеней свободы на небольшом числе примеров. Чтобы научиться вращать мячи в роботизированной руке с реалистичными суставами пальцев с 24 степенями свободы, потребовалось всего 4 часа практики на реальном физическом роботе.

Читать дальше →

+18

indeecev 1 окт 2019 в 13:38

Как мы делали свой движок Workflow

9 мин

7.2K

Блог компании Directum

Мы в компании DIRECTUM занимаемся разработкой ECM-системы DirectumRX. Основным элементом модуля Workflow для ECM-системы является движок. Он отвечает за изменение состояния экземпляра процесса (инстанса) по ходу жизненного цикла. Перед тем, как начать разрабатывать модуль Workflow, стоит решить: взять готовый движок или написать свой. Изначально мы пошли по первому варианту. Мы взяли движок Windows Workflow Foundation (WF), и в целом он нас устраивал. Но со временем мы поняли, что нам нужен свой движок. Как это случилось, и что из этого вышло, расскажу ниже.

Читать дальше →

+6

wndrdr 30 сен 2019 в 16:49

Лучшие продукты отталкиваются от настоящих проблем: Intercom про Jobs-to-be-Done. Часть 2

14 мин

7.1K

Блог компании VKGrowth Hacking*Интернет-маркетинг*Развитие стартапаУправление продуктом*

Перевод

Вторая часть перевода книги Intercom про Jobs-to-be-Done — это продолжение повествования о том, как концепция Jobs-to-be-Done меняет принципы создания и улучшения IT-продукта. Главы с третьей по шестую.

Первая часть
Третья часть

Читать дальше →

+30

PatientZero 27 сен 2019 в 12:15

Циклическая генерация подземелий на примере Unexplored

2 мин

8.5K

Разработка игр*Дизайн игр*

Перевод

Хватит создавать ветвящиеся пути, начинайте использовать циклическую генерацию подземелий. Ваши уровни станут гораздо более похожими на созданные вручную.

Чаще всего для генерации подземелий в играх жанра roguelike на карту добавляются сгенерированные или заранее созданные фрагменты подземелья. Подземелье вырастает из начальной точки подобно дереву. Однако деревья заканчиваются ветвями, что приводит к созданию множества тупиков. Чтобы обойти эту проблему, большинство генераторов подземелий ищут места, в которых можно случайным образом соединить ветви, чтобы игрок мог двигаться по кругу, а не возвращаться постоянно назад.

В dungeon crawler'е Unexplored использован фундаментально иной подход (см. рисунок 1). Вместо линейных путей в качестве самой базовой структуры он изначально использует циклы. Разница оказывается поразительной: при старом подходе хорошие и интересные циклы могли возникать случайно, а в Unexplored они являются запланированной особенностью результата работы генератора.

Читать дальше →

+25

GlobalSign_admin 10 сен 2019 в 17:07

Суд США полностью легализовал скрапинг сайтов и запретил ему технически препятствовать

3 мин

70K

Информационная безопасность*Веб-разработка*Серверное администрирование*Блог компании GlobalSignКопирайт

Вчера Апелляционный суд 9-го округа США принял решение (pdf), что скрапинг публичных сайтов не противоречит закону CFAA (Computer Fraud and Abuse Act).

Это действительно важное решение. Суд не только легализовал эту практику, но запретил мешать конкурентам снимать информацию с вашего сайта в автоматическом режиме, если сайт является общедоступным. Суд подтвердил понятную логику, что заход бота-скрапера юридически не отличается от захода браузера. В обоих случаях «пользователь» запрашивает открытые данные — и что-то делает с ними на своей стороне.

Сейчас многие владельцы сайтов пытаются поставить технические препоны конкурентам, которые полностью копируют их информацию, не защищённую копирайтом. Например, цены на билеты, товарные лоты, открытые профили пользователей и т. д. Некоторые сайты считают эту информацию «своей», а скрапинг расценивают как «воровство». Юридически это не так, что теперь закреплено официально в США.

Читать дальше →

+68

shukshinivan 23 июл 2019 в 17:18

Математическое расследование, как подделывали выборы губернатора в Приморье 16 сентября 2018 года

19 мин

97K

Python*Big Data*Открытые данные*

Во втором туре выборов губернатора Приморского края 16 сентября 2018 года встречались действующий и.о. губернатора Андрей Тарасенко и занявший второе место в первом туре коммунист Андрей Ищенко. В ходе подсчета голосов на сайте ЦИК РФ отображалась информационная панель с растущим числом обработанных протоколов и голосов за кандидатов.

Публикация подробных данных по участкам на официальном сайте ЦИК www.izbirkom.ru замерла после ввода 1484 (95.74%) протоколов и не возобновлялась до самого конца. Поэтому когда в трансляции лидер голосования вдруг поменялся с Ищенко на Тарасенко, было неясно, как именно это могло произойти. В СМИ просто писали «после обработки 99,03% протоколов лидер сменился».

Однако, располагая промежуточными суммарными данными из информационной панели, с помощью простой математики и программирования можно подробно установить, что именно происходило с протоколами в ночь после выборов. Используем Python, Colab от Google и Z3 theorem prover от Microsoft Research. Ну и добьём всё обычной дедукцией.

И что же там можно расследовать?

+382

Razoomnick 18 июн 2019 в 19:33

Как мы автоматизировали большой интернет-магазин и стали сопоставлять товары автоматически

21 мин

23K

.NET*Алгоритмы*Microsoft SQL Server*Управление e-commerce*Развитие стартапа

Статья больше техническая, чем про бизнес, но какие-то итоги с точки зрения бизнеса мы тоже подведем. Больше всего внимания будет уделено автоматическому сопоставлению товаров из разных источников.

Работа интернет-магазина состоит из достаточно большого числа составляющих. И каким бы ни был план, получать прибыль прямо сейчас, или расти и искать инвесторов, или, например, развивать смежные направления, как минимум придется закрывать такие вопросы:

Работа с поставщиками. Чтобы продать что-то ненужное, нужно сначала купить что-то ненужное.
Управление каталогом. У кого-то узкая специализация, а кто-то продает сотни тысяч разных товаров.
Управление розничными ценами. Тут придется учесть и цены поставщиков, и цены конкурентов, и доступные финансовые инструменты.
Работа со складом. В принципе, можно и не иметь собственного склада, а забирать товар со складов партнеров, но так или иначе вопрос стоит.
Маркетинг. Тут наполнение сайта контентом, размещение на площадках, реклама (онлайн и офлайн), акции и много чего еще.
Прием и обработка заказов. Колл-центр, корзина на сайте, заказы через мессенджеры, заказы через площадки и маркетплейсы.
Доставка.
Бухгалтерия и прочие внутренние системы.

Магазин, о котором мы будем говорить, не имеет узкой специализации, а предлагает кучу всего от косметики до мини-трактора. Я расскажу, как у нас устроена работа с поставщиками, мониторинг конкурентов, управление каталогом и формирование цен (оптовых и розничных), работа с оптовыми клиентами. Немного затронем тему склада.

Чтобы лучше понимать некоторые технические решения, будет не лишним знать, что в
какой-то момент мы решили, что технологические вещи, если это возможно, будем делать не для себя, а универсальными. И, возможно, после нескольких попыток выйдет развить новый бизнес. Получается, условно, стартап внутри компании.

Так что рассматриваем отдельную систему, более-менее универсальную, с которой интегрирована остальная инфраструктура компании.

Читать дальше →

+18

lol_wat 15 июн 2019 в 10:37

Как создать приложение для сферы финансов: 5 API в помощь разработчику

2 мин

14K

СофтФинансы в IT

Всем привет! Продолжаю свое исследование сферы финансов с точки зрения технологий. В прошлом материале мы изучали существующие торговые терминалы и их особенности, а сегодня предлагаю поговорить, собственно, о разработке финансовых приложений.

Для нового топика я подобрал пять API различных финансовых сервисов, которые позволяют как получать самые разные данные, так и непосредственно вести торговлю на бирже с помощью написанных роботов.

Читать дальше →

+20

1

2 3 ...