Как стать автором
Обновить
106.36
ИТМО
IT's MOre than a University

«Познай самого себя»: social media mining-проекты в Университете ИТМО

Время на прочтение5 мин
Количество просмотров4.5K
Социальные сети — не только таймкиллер и источник новостей, но и поле для разнообразных исследований. О том, что ученые и студенты Университета ИТМО научились узнавать по нашим постам в Facebook и Instagram, расскажем ниже.

/ Фотография perzon seo CC-BY

«Что хочет покупатель»: профилирование в соцсетях


Этим проектом занималась группа магистрантов кафедры Компьютерных технологий Университета ИТМО во время стажировки в Национальном университете Сингапура. Задача проекта — создать систему, которая помогала бы компаниям лучше разбираться в потребностях их аудитории — с учетом того, что эта аудитория рассказывает о себе в социальных сетях.

Пример: компания хочет разобраться в том, что объединяет людей, довольных (или, наоборот, недовольных) ее продуктом. Разработка студентов Университета ИТМО позволяет сформировать портрет такого [довольного/недовольного] покупателя по данным из социальных сетей, и предложить подходящее решение: кого-то может заинтересовать скидка, а кому-то понадобится предложить другой продукт.

Как это работает: алгоритм, предложенный командой Университета ИТМО, анализирует открытые данные, которые оставляет пользователь социальных сетей: метки геолокации, общедоступные сообщения, фотографии и подписи к ним. Эти данные преобразуются в набор параметров (средний размер твита, наиболее частые объекты на фото, распределение чекинов и т.д.), который далее передается нейронной сети.

Результат ее работы зависит от поставленной задачи: в некоторых случаях необходимо оценить эмоциональную окраску сообщений, в других — составить более полную картину о выбранном типе пользователя и их вкусах по результатам анализа данных из нескольких социальных сетей. При этом речь идет не о работе с отдельными пользователями, а о формировании наборов атрибутов, которые будут характеризовать целые группы людей.

О чем говорит Twitter Дональда Трампа


Более ранняя разработка магистрантов Университета ИТМО, работавших над проектом профилирования потребителей, — система, угадывающая семейное положение человека по данным из Twitter, Instagram и Foursquare. По данным исследователей, комбинация из трех соцсетей обеспечивает точность предсказания до 86%, в то время как по информации только из одной соцести алгоритм угадывает семейное положение с точностью на 17% ниже.

Правда, многое в данном случае зависит и от того, кто и как заявляет о себе в соцсетях — например, Twitter Дональда Трампа «сообщает», что его владелец — холостяк. Исследователи предположили: полученный результат связан с тем, что основную работу по ведению Twitter-аккаунта выполняет не сам президент, а его PR-менеджер.

Кстати, по итогам данного исследования программисты Университета ИТМО выступили с докладом на конференции AAAI по искусственному интеллекту (AAAI Conference on Artificial Intelligence, AAAI-2017), которая объединяет ученых, занимающихся вопросами создания и обучения ИИ.


Эмоции и безопасность: как почувствовать настроение толпы


Еще один пример исследования, в основе которого лежат данные соцсетей, — система анализа эмоций, разработка сотрудников НИИ наукоемких компьютерных технологий (НИИ НКТ) Университета ИТМО.

Как это работает: выражения лиц на фотографиях сравниваются с восемью базовыми эмоциями — это злоба, пренебрежение, нейтральное состояние, печаль, удивление, счастье и грусть. В основе алгоритма распознавания эмоций также лежат сверточные нейронные сети. Для повышения точности работы алгоритма исследователи могут использовать результаты оценки части фотографий «вручную» — самими пользователями.

При этом алгоритм распознает не только «картинку», но и эмоциональный настрой текстовых сообщений: в первоначальном исследовании использовались данные из социальных сетей Facebook, Twitter и «Вконтакте», визуальная и текстовая составляющая постов оценивалась комплексно. Кроме того, исследователи могут задать «уточняющие условия» — например, оценивать материалы с привязкой к определенной локации.

Результат работы так же, как и в случае с профилированием аккаунтов, зависит от текущей исследовательской задачи: так, первый запуск системы в детском лагере «Сириус» позволил создать инновационный стенд — по материалам пользователей соцсетей он показывал, какие эмоции вызывает у людей тот или иной объект или место на карте в пределах Сочи, Красной поляны и Адлера.

Другой пример использования алгоритма — возможность распознать очаги напряженности на футбольных матчах (о том, какие еще разработки Университета ИТМО были использованы при подготовке к Кубку конфедераций и предстоящему ЧМ-2018, мы рассказывали здесь).

В этом случае исследователи ограничились соцсетью Instagram и анализировали фотографии, которые болельщики публиковали во время матчей. Выяснилось, что на фото с матчей, во время которых были зафиксированы драки, алгоритм в два раза чаще находит «злобных болельщиков» (по сравнению с матчами, в ходе которых драк не возникало).

За экстремальные ситуации, помимо драк, также считались использование пиротехники, бросание предметов на трибуны и поле стадиона, демонстрация оскорбительных баннеров, скандирование нетолерантных кричалок и другое. Мы рассматривали матчи [ФК «Зенит»] в период с 2013 по 2015 годы. Получилось около десяти игр, после чего мы брали и другие команды.

Всего матчей с драками было немного, но, когда мы стали работать с официальной статистикой Российского футбольного союза и смотрели не только драки, но и на иные события, которые могут угрожать здоровью и состоянию болельщиков, [выяснилось, что] за три сезона из 700 матчей с экстремальными событиями на трибунах прошло около половины игр.

– Василий Бойчук, инженер НИИ НКТ


Социальные сквозняки и распространение информации


Другая разработка НИИ НКТ, использующая данные соцсетей, — система поиска «социальных сквозняков» и оценки общественного мнения. Этот проект позволяет в соответствии с заданной стратегией проанализировать общедоступные материалы пользователей «Вконтакте», Twitter, Instagram, Live Journal, определить наиболее важные содержательные элементы, тему и эмоциональный настрой сообщения и разметить пост в соответствии с заданными характеристиками, включая количество лайков, репостов, цитирований, комментариев и т.д.

Этот подход позволяет в дальнейшем выстроить граф связей по выбранному критерию и спрогнозировать распространение информации по такому графу. Система умеет отличать реальных пользователей от ботов и может оценить «социальный вес» пользователя — в том числе понять, является ли он лидером мнений в той или иной социальной группе.

Панчи, скетчи, вайны


Социальные сети могут не только рассказать о точках напряженности в обществе и существующих проблемах. Не менее часто пользователи делятся со своими друзьями тем, что вызывает у них вдохновение, интерес или просто улыбку. Поэтому для посетителей фестивалей VK Fest и Geek Picnic Университет ИТМО часто готовит демонстрацию своих разработок в неклассическом — развлекательном формате.

Так, например, исследование по анализу эмоций было продемонстрировано на VK Fest в прошлом году — посетители, пришедшие тогда в Парк 300-летия, могли видеть «интерактивную картину» фестиваля: наиболее интересные места, самые популярные площадки для фото и т.д. Вся информация, естественно, менялась в соответствии с тем, что рассказывали о фестивале пользователи «Вконтакте» на своих страницах.


Ричард Докинз. Фотография Университета ИТМО

А для фестиваля Geek Picnic-2017 Университет ИТМО подготовил еще один пример анализа соцсетей — мемокуб с самыми узнаваемыми мемами: от «Wat» до всем известного кадра из «Великого Гэтсби». Рядом с ним состоялась автограф-сессия хедлайнера фестиваля, эволюционного биолога и популяризатора науки Ричарда Докинза.

Кстати, на фестиваль Geek Picnic Университет ИТМО привез не только мемокуб, но и многие свои разработки — от системы работы умного дома до функциональной еды. О том, чем еще запомнилась посетителям Geek Picnic интерактивная зона Университета — читайте здесь.
Теги:
Хабы:
+14
Комментарии0

Публикации

Информация

Сайт
itmo.ru
Дата регистрации
Дата основания
Численность
Неизвестно
Местоположение
Россия
Представитель
itmo