Pull to refresh
0
0
Send message

Персонализируй это. Отчёт с Avito Data Science Meetup: Personalization

Reading time2 min
Views2.9K

Всем привет! Публикуем отчёт с митапа Avito Data Science Meetup: Personalization, который проходил у нас в офисе. Участники обсуждали моделирование пользовательских предпочтений в мультимодальных данных и кластеризацию волатильных объявлений с помощью EM-алгоритма. Под катом — видеозаписи, презентации, ссылка на фотоотчёт.


Total votes 23: ↑23 and ↓0+23
Comments0

Ассоциативные правила, или пиво с подгузниками

Reading time19 min
Views73K


Введение в теорию


Обучение на ассоциативных правилах (далее Associations rules learning — ARL) представляет из себя, с одной стороны, простой, с другой — довольно часто применимый в реальной жизни метод поиска взаимосвязей (ассоциаций) в датасетах, или, если точнее, айтемсетах (itemsests). Впервые подробно об этом заговорил Piatesky-Shapiro G [1] в работе “Discovery, Analysis, and Presentation of Strong Rules.” (1991) Более подробно тему развивали Agrawal R, Imielinski T, Swami A в работах “Mining Association Rules between Sets of Items in Large Databases” (1993) [2] и “Fast Algorithms for Mining Association Rules.” (1994) [3].
Читать дальше →
Total votes 59: ↑59 and ↓0+59
Comments25

Самые страшные ошибки, которые допускают DS. Встреча в офисе Авито 24 апреля

Reading time2 min
Views7.6K

Привет! На следующей неделе, во вторник, 24 апреля, приглашаем специалистов по Data Science на митап, который мы организуем вместе с AI Community и AI Today. Будем говорить о самых страшных ошибках, которые допускают DS. Подробно обсудим CRISP-DM и Tips&Tricks, которые можно использовать в работе. Вы услышите доклады Ивана Гуза, Игоря Слинько и Станислава Гафарова. Регистрируйтесь на встречу и приглашайте коллег. Под катом — тезисы выступлений, ссылки на регистрацию и видеотрансляцию митапа.


Читать дальше →
Total votes 21: ↑20 and ↓1+19
Comments2

Нейронные сети, генетические алгоритмы и прочее… Мифы и реальность. Версия II

Reading time24 min
Views15K
Прежде всего, я хотел бы поблагодарить всех, кто дал свои критические комментарии по первой версии статьи. Мне показалось, что написать версию два, а не просто оставить все как есть, было бы правильной идеей.
 
Конечно же, искусственный интеллект уже существует!  Если посмотреть заголовки статей в популярных СМИ, названия и слоганы различных научных конференций на эту тему – безусловно это так. Нельзя не поверить, особенно когда очень этого хочется наконец-то оказаться в XXI веке — «настоящем», как это описывалось во всех научно-фантастических романах. Но так ли это? А если нет, то что существует на самом деле. В попытке разобраться в мифах и реалиях была написана эта статья.
 
Первоначально хотелось начать как-то так: «впервые упоминание термина «Искусственный интеллект» появилось у Д. Мккарти в 1956 году на конференции в Дартмундском университете, основоположниками ИИ следует считать У.Мак-Каллока, У.Питса, Ф.Розенблата» и т.д. Однако, это уже слишком поздно и не совсем отвечает целям статьи, да и википедия опередила с таким началом.

Анализируя последние «победы» ИИ, а также критические статьи неизбежно приходишь к выводу, что все крутится вокруг нескольких общих особенностей. Одна часть статей критикует невозможность прохождения тестов, а другая полна патетики о «невероятных победах».  При этом игнорируется тот факт, что победы были достигнуты в узкоспециализированных задачах, где основным преимуществом машины была скорость переборов по базе фактов и «умении» видеть закономерности там, где человек просто-напросто быстро устает это делать. Блестящие примеры кластерного анализа в том или ином виде и формирование базы шаблонов-фактов. Всё это следствия, причины же в большинстве случаев или не анализируются совсем, или рассматриваются поверхностно.
Читать дальше →
Total votes 18: ↑16 and ↓2+14
Comments38

Вероятностная интерпретация классических моделей машинного обучения

Reading time8 min
Views29K

Этой статьей я начинаю серию, посвященную генеративным моделям в машинном обучении. Мы посмотрим на классические задачи машинного обучения, определим, что такое генеративное моделирование, посмотрим на его отличия от классических задач машинного обучения, взглянем на существующие подходы к решению этой задачи и погрузимся в детали тех из них, что основаны на обучении глубоких нейронных сетей. Но прежде, в качестве введения, мы посмотрим на классические задачи машинного обучения в их вероятностной постановке.


Читать дальше →
Total votes 28: ↑26 and ↓2+24
Comments0

Генеративное Моделирование и AI

Reading time10 min
Views12K
В предыдущей главе мы поговорили о классических дискриминативных моделях в машинном обучении и разобрали простейшие примеры таких моделей. Давайте теперь посмотрим на более общую картину.


Читать дальше →
Total votes 20: ↑20 and ↓0+20
Comments1

В США впервые разрешили ИИ проводить диагностику людей без участия врачей

Reading time3 min
Views5.8K

Управление по санитарному надзору за качеством пищевых продуктов и медикаментов США (FDA) приняла историческое решение, впервые разрешив Искусственному интеллекту самостоятельно проводить медицинское обследование людей без участия живого специалиста.

FDA выдало разрешение компании IDx, которая разрабатывает диагностическую систему IDx-DR для офтальмологии. Как сказано в материалах производителя, устройство работает под управлением ИИ.

Программное обеспечение IDx-DR по фотографиям глаза распознаёт признаки диабетической ретинопатии. Это широко распространённое осложнение при диабете, поражающее сосуды сетчатой оболочки глазного яблока. Оно наблюдается у 90% пациентов при сахарном диабете и может привести к потере зрения.
Total votes 17: ↑17 and ↓0+17
Comments12

Учёные раскритиковали американскую криминалистику за ненаучность

Reading time4 min
Views11K
Криминалистика играет важную роль в отправлении правосудия, но многие используемые в ней методы никогда не были научно обоснованы. Это отметила группа инициативных учёных, которые ранее служили в Национальной комиссии по криминалистике. Теперь они утверждают, что необходимо расширить исследования и финансирование этой отрасли, чтобы представить новые методы, в том числе исключающие субъективность при вынесении экспертных решений.

Читать дальше →
Total votes 30: ↑28 and ↓2+26
Comments21

Generative adversarial networks

Reading time12 min
Views27K
В прошлой статье мы рассмотрели простейшую линейную генеративную модель PPCA. Вторая генеративная модель, которую мы рассмотрим — Generative Adversarial Networks, сокращенно GAN. В этой статье мы рассмотрим самую базовую версию этой модели, оставив продвинутые версии и сравнение с другими подходами в генеративном моделировании на следующие главы.


Читать дальше →
Total votes 23: ↑22 and ↓1+21
Comments3

Применение сверточных нейронных сетей для задач NLP

Reading time9 min
Views61K
Когда мы слышим о сверточных нейронных сетях (CNN), мы обычно думаем о компьютерном зрении. CNN лежали в основе прорывов в классификации изображений — знаменитый AlexNet, победитель соревнования ImageNet в 2012 году, с которого начался бум интереса к этой теме. С тех пор сверточные сети достигли большого успеха в распознавании изображений, в силу того факта, что они устроены наподобие зрительной коры головного мозга — то есть умеют концентрироваться на небольшой области и выделять в ней важные особенности. Но, как оказалось, CNN хороши не только для этого, но и для задач обработки естественного языка (Natural Language Processing, NLP). Более того, в недавно вышедшей статье [1] от коллектива авторов из Intel и Carnegie-Mellon University, утверждается, что они подходят для этого даже лучше RNN, которые безраздельно властвовали областью на протяжении последних лет.

Сверточные нейронные сети


Для начала немного теории. Что такое свертка? Мы не будем на этом останавливаться подробно, так как про это написана уже тонна материалов, но все-таки кратко пробежаться стоит. Есть красивая визуализация от Стэнфорда, которая позволяет ухватить суть:

image
Источник
Читать дальше →
Total votes 71: ↑69 and ↓2+67
Comments29

Все цвета, игнорируемые нашими глазами

Reading time5 min
Views31K

Нашим глазам пришлось пойти на жертвы, чтобы помочь нам выжить




Большая часть млекопитающих полагается на обоняние больше, чем на зрение. Посмотрите на собачьи глаза – они расположены по бокам морды, не так, как у людей, у которых они находятся близко и направлены вперёд. Глаза по бокам позволяют увеличить область обзора, но плохо передают ощущению глубины и расстояние до объектов. Вместо хорошего зрения у собак, лошадей, мышей, антилоп – и в принципе у большинства млекопитающих – есть длинные влажные носы. Отличаемся от них мы, люди, человекообразные и обычные обезьяны. И у нашего зрения есть определённая необычная особенность, которую необходимо объяснить.

Со временем, занимая более освещённые экологические ниши, мы стали всё меньше полагаться на запах и всё больше на зрение. Мы потеряли влажные носы и рыльца, наши глаза подвинулись вперёд на лице и сблизились друг с другом, что улучшило наше умение оценивать расстояние (мы выработали улучшенное бинокулярное зрение). Кроме того, обезьяны Старого Света, или узконосые обезьяны, catarrhini, выработали трихроматизм: цветное зрение из красного, зелёного и синего. У большинства других млекопитающих в глазах содержится два разных типа фоторецепторов (колбочек), но предок узконосых обезьян перенёс дупликацию генов, что создало три разных гена для цветового зрения. Каждый из них кодирует фоторецептор, настроенный на свет разных длин волн: короткие (синий), средние (зелёный) и длинные (красный). Итак, наши предки в результате эволюции выработали глаза, смотрящие вперёд и трихроматическое зрение – и больше мы не оглядывались.
Читать дальше →
Total votes 35: ↑23 and ↓12+11
Comments45

Как программирование влияет на мозг и мышление

Reading time4 min
Views56K


Это правда, что мышление программистов устроено иначе, чем у других людей. Не сказать, что они обязательно умнее, логичнее или рациональнее остальных. Однако не так давно учёные приступили к изучению влияния программирования на мозг, и пришли к интересным заключениям.

Как занятия искусствами могут по-разному менять ваше мышление, так и программирование влияет на ваш образ мыслей — возможно, не так, как вы ожидали.
Читать дальше →
Total votes 28: ↑23 and ↓5+18
Comments67

Нейрогенез у взрослых людей все же есть

Reading time3 min
Views22K


Всем нам известно выражение, что нервные клетки не восстанавливаются. Так считали еще несколько десятков лет назад, но оказалось, что это не совсем верное утверждение. Нервные клетки восстанавливаются, а новые нейроны появляются в мозге у взрослых людей. И у птиц, и у млекопитающих нейрогенез был подтвержден, причем неоднократно.

В марте на Geektimes публиковалась статья, где говорилось о том, что нейрогенез у взрослого человека сомнителен. Его либо вообще нет, либо скорость появления нервных клеток слишком мала, чтобы считать процесс важным и существенным. Незначительное количество новых нейронов авторы исследования обнаружили лишь в мозге 13-летнего подростка. Сейчас опубликованы результаты нового исследования, все же подтверждающего нейрогенез у взрослых людей.
Читать дальше →
Total votes 30: ↑29 and ↓1+28
Comments14

При перегрузке рабочей памяти у человека нарушается синхронизация между тремя отделами мозга

Reading time3 min
Views24K

Корковая архитектура в соответствии с канонической моделью нейронного микроконтура в коре головного мозга примата. Четыре типа нейронов (звёздчатые нейроны, поверхностные и глубокие пирамидальные нейроны и тормозные интернейроны) соединяются возбуждающими (красные) и тормозящими (чёрные) соединениями. Такой набор нейронов и соединений мотивирован анатомическими и теоретическими соображениями в пользу канонической модели

Человек способен одновременно удерживать в рабочей памяти ограниченное количество объектов. Объём рабочей памяти напрямую связан с когнитивной способностью, которая снижается при неврологических заболеваниях и психических расстройствах. Учёные уже несколько десятилетий изучают, как загрузка рабочей памяти влияет на обработку нейронных сигналов в мозге. Они пытаются понять, почему у рабочей памяти такой небольшой объём. И почему когнитивные способности резко падают, если загрузить рабочую память сверх положенного.
Читать дальше →
Total votes 19: ↑19 and ↓0+19
Comments20

Как решить 90% задач NLP: пошаговое руководство по обработке естественного языка

Reading time16 min
Views111K
Неважно, кто вы — зарекомендовавшая себя компания, или же только собираетесь запустить свой первый сервис — вы всегда можете использовать текстовые данные для того, чтобы проверить ваш продукт, усовершенствовать его и расширить его функциональность.

Обработкой естественного языка (NLP) называется активно развивающаяся научная дисциплина, занимающаяся поиском смысла и обучением на основании текстовых данных.

Как вам может помочь эта статья


За прошедший год команда Insight приняла участие в работе над несколькими сотнями проектов, объединив знания и опыт ведущих компаний в США. Результаты этой работы они обобщили в статье, перевод которой сейчас перед вами, и вывели подходы к решению наиболее распространенных прикладных задач машинного обучения.

Мы начнем с самого простого метода, который может сработать — и постепенно перейдем к более тонким подходам, таким как feature engineering, векторам слов и глубокому обучению.

После прочтения статьи, вы будете знать, как:

  • осуществлять сбор, подготовку, и инспектирование данных;
  • строить простые модели, и осуществлять при необходимости переход к глубокому обучению;
  • интерпретировать и понимать ваши модели, чтобы убедиться, что вы интерпретируете информацию, а не шум.

Пост написан в формате пошагового руководства; также его можно рассматривать в качестве обзора высокоэффективных стандартных подходов.
Total votes 38: ↑36 and ↓2+34
Comments11

Обзор кейсов интересных внедрений Big Data в компаниях финансового сектора

Reading time11 min
Views22K

Кейсы практического применения Больших данных
в компаниях финансового сектора


Зачем эта статья?

В данном обзоре рассматриваются случаи внедрения и применения Больших данных в реальной жизни на примере «живых» проектов. По некоторым, особенно интересным, во всех смыслах, кейсам осмелюсь дать свои комментарии.

Диапазон рассмотренных кейсов ограничивается примерами, представленными в открытом доступе на сайте компании Cloudera.

Что такое «Большие данные»


Есть в технических кругах шутка, что «Большие данные» это данные, для обработки которых недостаточно Excel 2010 на мощном ноутбуке. То есть если для решения задачи вам надо оперировать 1 миллионом строк на листе и более или 16 тысяч столбцов и более, то поздравляем, ваша данные относятся к разряду «Больших».

Среди множества более строгих определений приведем, например следующее: «Большие данные» — наборы данных, которые настолько объемны и сложны, что использование традиционных средств обработки невозможно. Термин обычно характеризует данные, над которыми применяются методы предиктивной аналитики или иные методы извлечения ценности из данных и редко соотносится только с объемом данных.
Читать дальше →
Total votes 25: ↑21 and ↓4+17
Comments5

Как музыка влияет на интеллект: популярные мифы и научные гипотезы

Reading time5 min
Views45K
Вокруг влияния музыки на обучаемость и интеллект появляется много мифов. Самый распространенный из них слышал, пожалуй, каждый: если ребенка с рождения заставлять слушать Моцарта, он вырастет талантливым. Так ли это?

Когда и как появились устойчивые представления о том, что музыка влияет на ум?

Разбираемся в устройстве популярных мифов: ищем доказательства или развенчиваем их.

Читать дальше →
Total votes 22: ↑21 and ↓1+20
Comments22

Мозговые имплантаты сегодня и в будущем

Reading time7 min
Views19K
Имплантируемые в мозг однонаправленные датчики или устройства с обратной связью могут применяться для лечения различных заболеваний вроде эпилепсии и болезни Альцгеймера, для управления протезами конечностей и экзоскелетами, для получения сигналов от бионического глаза, а также для выполнения функций самого мозга.

На протяжении последних тридцати лет учёные пытаются создать устройство, имитирующее происходящие в гиппокампе процессы с целью восстановить способность людей создавать новые воспоминания — переводить данные из кратковременной памяти в долговременную. В одной из последних работ команда из нескольких американских университетов улучшила результаты решения задач на запоминание на 35-37%.

Давайте обсудим, как далеко исследователи зашли в этой области и от кого нам ждать новых решений в будущем.


Кадр из фильма «Джонни Мнемоник»
Total votes 20: ↑20 and ↓0+20
Comments6

Конфабуляция: почему мы верим в наши собственные выдумки

Reading time5 min
Views19K


В ставшем уже классическим эксперименте психологи Ричард Нисбет и Тимоти Уилсон из Мичиканского университета раскладывали перед людьми различные вещи, такие, например, как пары носков, и просили выбрать одну. Участники последовательно выбирали вещи, расположенные от них с правой стороны. Но когда их просили объяснить их выбор, они не упоминали расположение вещи, а в качестве причин своего выбора называли более качественную текстуру ткани, или более яркий цвет, даже если перед ними лежали абсолютно одинаковые пары носков. Люди демонстрировали конфабуляцию. Не зная реальных факторов, определявших их выбор, они не связывали его с определившими выбор причинами, а просто придумывали правдоподобное объяснение того, чем выбранная вещь оказалась лучше.

Такое поведение не ограничивается ситуациями в экспериментах. В повседневной жизни мы часто убедительно объясняем наш выбор, даже если не знаем некоторых факторов, влиявших на него. Когда мы предлагаем объяснение выбора, мы приводим правдоподобные аргументы в его пользу. Допустим, комиссия выбрала двух кандидатов на вакансию и оценивает их после тщательного рассмотрения их резюме и поведения на интервью. Большая часть людей из комиссии склоняются в сторону Джона, выбирая между ним и Арией.
Читать дальше →
Total votes 24: ↑22 and ↓2+20
Comments25

Умный «фейс-контроль»: алгоритмы машинного обучения для эффективного кэширования данных на SSD

Reading time15 min
Views4.5K


Данная статья была представлена на конференции SECR2017, где получила премию Бертрана Мейера за лучший исследовательский доклад.

В этом материале руководитель исследовательской лаборатории «Рэйдикс» Светлана Лазарева рассказывает о новом алгоритме заполнения параллельного кэша в СХД, который основан на алгоритме машинного обучения.
Total votes 8: ↑8 and ↓0+8
Comments0

Information

Rating
Does not participate
Registered
Activity