Articles / Bookmarks / Profile of doktr / Habr

How to become an author

User

Profile Publications Comments 20Bookmarks 345

mozg4d Jun 2 2022 at 09:59

Логисторная логика

4 min

6.8K

High performance*Popular scienceCPUPhysicsThe future is here

Логисторная логика это набор концепций, применение которых может позволить ускорить вычисления, сократить затраты энергии на вычисления и увеличить плотность транзисторов на кристалле без существенного изменения техпроцесса. Она находится в разработке и статья ниже является лишь первичным результатом. Мы надеемся что она вызовет интерес в научных кругах и среди энтузиастов и разработка будет продолжена.

Читать далее

+33

sergei_shirkin Oct 24 2019 at 10:06

Сократить время вычислений от нескольких лет до минут. Разбираемся с квантовым машинным обучением

9 min

10K

Mathematics*Machine learning*Quantum technologiesOKKAM Group corporate blog

Recovery Mode

Я давно интересуюсь квантовыми вычислениями и пишу программы для 5- и 14-кубитных квантовых компьютеров IBM Q Experience. Сегодня я расскажу о технологиях, которые можно будет применять в машинном обучении после того, как квантовые вычисления завоюют мир. Спойлер для дата сайентистов: в будущем у вас не получится запустить модель и уйти пить кофе на полдня. Квантовый компьютер щелкает задачи машинного обучения на раз, и отговорки вроде “модель обучается” уже не пройдут. Придется запускать не одну модель, а по меньшей мере миллион.

Читать дальше →

+14

pysinakaterina Oct 9 2019 at 11:32

Обнаружение пересекающихся сообществ в Instagram для определения интересов пользователей

8 min

17K

Big Data*Machine learning*Display advertising*Social networks and communitiesOKKAM Group corporate blog

Сколько может рассказать о человеке профиль в соцсети? Фотографии, посты, комментарии, подписки – непаханное поле для анализа. Сегодня поговорим о том, как мы определяем интересы пользователей на основе их подписок в сети Instagram.

Источник

Читать дальше →

+19

dentsuRU Oct 1 2019 at 11:23

Как мы собирали данные по рекламным кампаниям с интернет-площадок (тернистый путь к продукту)

12 min

5.6K

System Analysis and Design*Database Administration*Big Data*Internet marketing*OKKAM Group corporate blog

Кажется, что сфера интернет-рекламы должна быть максимально технологичной и автоматизированной. Ещё бы, ведь там работают такие гиганты и эксперты в своём деле, как Яндекс, Mail.Ru, Google и Facebook. Но, как оказалось, нет предела совершенству и всегда есть что автоматизировать.

Источник

Коммуникационная группа Dentsu Aegis Network Russia — крупнейший игрок на рекламном digital рынке и активно инвестирует в технологии, пытаясь в оптимизировать и автоматизировать свои бизнес-процессы. Одной из нерешенных задач рынка интернет-рекламы стала задача сбора статистики по рекламным кампаниям с разных интернет-площадок. Решение этой задачи в итоге вылилось в создание продукта D1.Digital (читать как ДиВан), о разработке которого мы и хотим рассказать.

Читать дальше →

+15

arttom Jun 19 2019 at 16:37

Большие данные — большая ответственность, большой стресс и большие деньги

7 min

17K

Big Data*Machine learning*Хабр Карьера corporate blogIT careerDistributed systems*

Термин Big Data подпорчен современным фантастическим преувеличением новых вещей. Как ИИ поработит людей, а блокчейн построит идеальную экономику — так и большие данные позволят знать абсолютно все про всех и видеть будущее.

Но реальность, как всегда, скучнее и прагматичнее. В больших данных нет никакой магии — как нет ее нигде — просто информации и связей между разными данными становится так много, что обрабатывать и анализировать все старыми способами становится слишком долго.

Появляются новые методы. Вместе с ними — новые профессии. Декан факультета аналитики Big Data в GeekBrains Сергей Ширкин рассказал, что это за профессии, где они нужны, чем там надо заниматься и что надо уметь. Какие используются инструменты и сколько обычно платят специалистам.

Читать дальше →

+23

FreelancerLifeStyle Jun 4 2019 at 17:09

Фриланс или офис? Ответ фрилансера

11 min

29K

FreelanceIT career

Привет, я фрилансер по жизни. Меня часто спрашивают, почему я не реализовываю себя в офисе компании. Говорят, что удаленная работа в фирме — это некая золотая середина.

Сейчас я постараюсь ответить на все вопросы разом в виде некоего сравнения труда в офисе или как фрилансер. Ну что, вперед!

+22

searchag Apr 9 2019 at 18:39

Семинары IBM: весна-лето 2019 — искусственный интеллект, разработка в облаке, чат-боты, блокчейн и прочие технологии

4 min

3K

IBM corporate blogCloud computing*Cloud services*Artificial IntelligenceMicroservices*

Привет, Хабр! В апреле-июне этого года в нашем клиентском центре (Москва, Пресненская набережная, 10) мы проводим очередную серию семинаров по облачным сервисам IBM. Приглашаем всех заинтересованных разработчиков! Участие в семинарах абсолютно бесплатное, а кофе-чай-пирожные — за наш счет. ) По окончании семинара каждый его участник получит сертификат от IBM. Количество мест ограничено.

Для тех, кто посетил наши семинары в прошлом году, мы подготовили обновленную программу, скорректированную в соответствии с вашими пожеланиями. Темы семинаров: разработка в облаке, чат-боты, блокчейн, частные облака, машинное обучение и анализ данных в облаке. Посетив наши семинары, вы сможете быстро реализовать свои инновационные идеи в виде сервисов и/или приложений из облака IBM, используя современные технологии, сократить time-to-market, создавать PoC для ваших заказчиков, или вывести вашу идею на международный рынок!

Тем, кто заинтересовался — смотрим далее.

Читать дальше →

+20

grigoryvp Aug 29 2018 at 12:52

Бинарные модули для Python

17 min

15K

High performance*Python*Конференции Олега Бунина (Онтико) corporate blog

Python — классный. Мы говорим «pip install» и скорее всего нужная библиотека поставится. Но иногда ответ будет: «compilation failed», потому что есть бинарные модули. Они практически у всех современных языков страдают какой-нибудь болью, потому что архитектур много, что-то нужно собирать под конкретную машину, что-то нужно линковать с другими библиотеками. В целом интересный, но малоизученные вопрос: а как же их делать и какие там проблемы? На этот вопрос постарался ответить Дмитрий Жильцов (zaabjuda) на MoscowPython Conf в прошлом году.

Под катом текстовая версия доклада Дмитрия. Ненадолго остановимся на том, когда бинарные модули нужны, а когда от них лучше отказаться. Обсудим правила, которые стоит соблюдать при их написании. Рассмотрим пять возможных вариантов реализации:

Native C/C++ Extension
SWIG
Cython
Ctypes
Rust

О спикере: Дмитрий Жильцов занимается разработкой больше 10 лет. Работает в компании ЦИАН системным архитектором, то есть несет ответственность за технические решения и контроль сроков. В своей жизни успел попробовать и ассемблер, Haskell, C, а последние 5 лет активно программирует на Python.

+45

SLY_G Nov 26 2016 at 12:59

Оптимистичный взгляд на автоматизацию и будущее рабочих мест

4 min

16K

Artificial IntelligenceThe future is here

Translation

Захватывают ли мир роботы и технологии, переводя людей в низший класс? Прежде чем напрягаться по этому поводу, вспомните, что обычно это происходит в результате автоматизации. Автоматизация действительно устраняет некоторые рабочие места, но может быть, это не так уж и плохо. Пока мы думаем, что мы будем делать с большей свободой, предоставляемой нам цифровыми вмешательствами в жизнь, рассмотрим уроки истории ранней автоматизации.

Если верить Илону Маску и его товарищам, то скорее рано, чем поздно, роботы заменят вас. Маск и другие считают, что скоро нас ждёт универсальный базовый доход (УБД). Правительство будет снабжать неработающих людей средствами, достаточными, чтобы не работать. Почему? Согласно высказыванию Винни Мирчандани [Vinnie Mirchandani] в статье «Медленная автоматизация»:

На выставке Gartner Symposium/ITxpo 2014 года Гартнер предсказал, что к 2025 году каждое третье рабочее место будет отдано ПО, роботам и умным машинам.

Читать дальше →

+10

Alexey_mosc Jun 29 2016 at 01:37

Методические заметки об отборе информативных признаков (feature selection)

39 min

22K

Data Mining*R*Align Technology, R&D corporate blog

Tutorial

Всем привет!

Меня зовут Алексей Бурнаков. Я Data Scientist в компании Align Technology. В этом материале я расскажу вам о подходах к feature selection, которые мы практикуем в ходе экспериментов по анализу данных.

В нашей компании статистики и инженеры machine learning анализируют большие объемы клинической информации, связанные с лечением пациентов. В двух словах смысл этой статьи можно свести к извлечению ценных крупиц знания, содержащихся в небольшой доле доступных нам зашумленных и избыточных гигабайтов данных.

Данная статья предназначена для статистиков, инженеров машинного обучения и специалистов, которые интересуются вопросами обнаружения зависимостей в наборах данных. Также материал, изложенный в статье, может быть интересен широкому кругу читателей, неравнодушных к data mining. В материале не будут затронуты вопросы feature engineering и, в частности, применения таких методов как анализ главных компонент.

Источник.

Читать дальше →

+18

ICLServices Jul 26 2016 at 17:26

AI 101: введение в автоматизацию и искусственный интеллект в аутсорсинге

6 min

7K

ГК ICL corporate blogResearch and forecasts in IT*Studying in ITReading room

Translation

Традиционное понимание аутсорсинга стремится к восприятию снижения себестоимости как одного из основных факторов для любого клиента. Мысль о том, что «общая стоимость владения» каким-либо бизнесом на протяжении всего срока договора аутсорсинга должна снижаться, очень часто выступает в качестве экономического обоснования. Аналогичным образом, восприятие аутсорсинга как способа преобразования активов на балансе в абонентскую плату за услуги и снижение (или, по крайней мере, кажущееся снижение) капитальных затрат является еще одним распространенным сдерживающим фактором в начале сделки. В то время как сделки с технологической трансформацией / изменениями в бизнесе совершаются, когда цель заключается в обновлении сервисов с увеличением общей стоимости, они не так распространены, как сделки, учитывающие стоимость.

Читать дальше →

+11

GMorozov Nov 16 2015 at 15:14

Титаник на Kaggle: вы не дочитаете этот пост до конца

31 min

81K

Programming*Data Mining*Big Data*Mathematics*MLClass corporate blog

Привет, хабр!

#{Data Science для новичков}

Меня зовут Глеб Морозов, мы с Вами уже знакомы по предыдущим статьям. По многочисленным просьбам продолжаю описывать опыт своего участия в образовательных проектах MLClass.ru (кстати, кто еще не успел — до конца еще можно получить материалы прошедших курсов — это, наверное, самый краткий и максимально практичный курс по анализу данных, который можно себе представить).

Данная работа описывает мою попытку создать модель для предсказания выживших пассажиров «Титаника». Основная задача — тренировка в использовании инструментов применяемых в Data Science для анализа данных и презентации результатов исследования, поэтому данная статья будет очень и очень длинной. Основное внимание уделено исследовательскому анализу (exploratory research) и работе по созданию и выбору предикторов (feature engineering). Модель создаётся в рамках соревнования Titanic: Machine Learning from Disaster проходящего на сайте Kaggle. В своей работе я буду использовать язык «R».

Читать дальше →

+28

Arristotel Aug 6 2013 at 13:35

Пример сегментации изображений средствами PHP

4 min

11K

PHP*Image processing*

Добрый день,
довольно редко, но все же встает вопрос о необходимости в автоматическом режиме делить изображение на логические фрагменты. Если вы ограничены только средствами PHP, то задача становится немного трудней, но все же решаема.
В данной статье я рассмотрю частный случай распознавания образов, ориентированный на не слишком изощренную публику.
В статье используются примеры с одного из сайтов с явным указанием ссылки, сайт не мой, изначально не было мыслей писать статью.

Читать дальше →

+35

Arristotel May 24 2015 at 11:44

Пример векторной реализации нейронной сети с помощью Python

14 min

49K

Website development*Open source*Python*Programming*Data Mining*

Tutorial

В статье речь пойдет о построение нейронных сетей (с регуляризацией) с вычислениями преимущественно векторным способом на Python. Статья приближена к материалам курса Machine learning by Andrew Ng для более быстрого восприятия, но если вы курс не проходили ничего страшного, ничего специфичного не предвидится. Если вы всегда хотели построить свою нейронную сеть с ~~преферансом и барышням~~ векторами и регуляризацией, но что то вас удерживало, то сейчас самое время.

Данная статья нацелена на практическую реализацию нейронных сетей, и предполагается что читатель знаком с теорией (поэтому она будет опущена).

Читать дальше →

+40

CvetKomm Jul 18 2013 at 11:34

Активные пользователи ВКонтакте и Twitter: рейтинг российских регионов

4 min

14K

PalitrumLab corporate blog

Как и обещали, публикуем данные по региональной активности пользователей Twitter и Вконтакте. В отличие от опросов общественного мнения, данное исследование позволяет проследить не декларативное поведение пользователей социальных сетей, а выделить ядро активных пользователей, формирующих информационный поток в сети. Больше всего пользователей, публикующих записи в социальных сетях ВКонтакте и Twitter, в Санкт-Петербурге и Москве.

Читать дальше →

+4

OzzyTech May 4 2016 at 17:22

Очередное «Все пропало» или «Эпоха аналитики соцмедиа закончилась». Реально?

5 min

4.6K

PalitrumLab corporate blogResearch and forecasts in IT*

Translation

Когда человечество приближается к очередной ступеньке роста, сразу появляются люди, предвещающие очередной Апокалипсис и «Все пропало!». Индустрия социальных медиа, составные части которой — аналитика, лингвистика и неструктурированные BigData — также уже несколько раз упиралась в стены, но снова и снова разбивала кокон ограниченного восприятия и перелетала бабочкой к новым высотам.

Из наглядных проблем-решений можно вспомнить:
— «Сбор таких мощных потоков невозможен» — появились новые команды с новыми походами и реализовали Topsy, gnip, SDS;
— «Аналитика неструктурированных объемных разноязычных данных на лету невозможна» — Autonomy, Radian6, Brand Analytics отпровергли невозможность;
— «Лингвистика никогда не справится с такими скоростями» — на смену старым медленным алгоритмам пришли AlchemyApi, EurekaEngine…

Высота очередной новой стены поднялась на новый, уже нетехнологический (здесь, фактически, объем человечества «закончился» раньше), а на социумный уровень - «Данных станет мало и все пропадет!» — этому посылу как раз и посвящена статья.

У нас есть (свой) ответ на очередную пугалку, но перед его публикацией возможно кто-то из коллег выскажет свое мнение? — welcome!

Читать дальше →

+6

ffriend Jul 17 2012 at 07:51

Я не знаю ООП

12 min

547K

Programming*ООP*

Я не умею программировать на объектно-ориентированных языках. Не научился. После 5 лет промышленного программирования на Java я всё ещё не знаю, как создать хорошую систему в объектно-ориентированном стиле. Просто не понимаю.

Я пытался научиться, честно. Я изучал паттерны, читал код open source проектов, пытался строить в голове стройные концепции, но так и не понял принципы создания качественных объектно-ориентированных программ. Возможно кто-то другой их понял, но не я.

И вот несколько вещей, которые вызывают у меня непонимание.

Читать дальше →

+206

alexanderkuk Aug 3 2015 at 00:11

Поиск похожих групп и пабликов Вконтакте

5 min

56K

VK API*Big Data*

На днях удалось провернуть интересную штуку. Для всех групп Вконтакте с числом подписчиков от 5000 до 10 000 (~100 000 групп) был построен полный граф, в котором веса рёбер равнялись пересечению аудиторий групп.

Читать дальше →

+26

alexanderkuk Jul 7 2015 at 15:30

Анализ звонков в колл-центры

3 min

7K

Data Mining*Yandex API*Big Data*

Для проверки технологии я записал несколько обращений в разные колл-центры. Дальше они будут фигурировать под кодовыми названиями: water, mosenergo, rigla, transaero и worldclass.

Первым делом нужно разбить запись на реплики...

+1

alexanderkuk Nov 22 2015 at 17:28

Анализ резюме с HeadHunter. Кто сколько зарабатывает и в каких отраслях работает

11 min

98K

Data Mining*Big Data*Data visualization*

Недавно, на хакатоне от Petamelon нам в руки попал датасет с ~6 000 000 резюме с НН. Там, естественно, не было никаких персональных данных и контактов, но было много других интересных вещей: ожидаемая зарплата, возраст, пол, примерный адрес, образование и индустрии, в которых человек ищет работу. Было решено попробовать использовать эти данные в нашем проекте про выбор школ. Идея заключалась в том, чтобы определить в каких индустриях работают выпускники школ и сколько примерно зарабатывают. Но я, конечно, не удержался и построил кучу других бесполезных, но прикольных таблиц и графиков.

Распределение резюме по возрасту имеет интересную форму и как будто разделено на две части: до окончания института и после:

В Москве с возрастом ожидаемая зарплата выходит на плато в ~50 000 рублей:

Читать дальше →

+93

1

2 3 ...