0
Рейтинг
24 января 2014

Трансформация угроз в информационном пространстве: от технологических к социальным. Часть III

Блог компании PalitrumLabИнформационная безопасность
Допустимо ли, чтобы предвзятая трактовка мнений 1448 американцев, при активном информационном прессинге государственных СМИ США, послужила началом III мировой войны? И есть ли у человечества защита от «заинтересованных» действий небольшой группы политиков? Современные технологии Online Big Data & Analytics нарушили всезнайство «ястребов» о мнении всего населения, так как позволяют получить реальную оценку высказываний и настроений жителей стран и всего мира.


Да, конечно, создание нового «Щита за мир» приводит к очередному развитию «Меча войны» (использование ботов, точечное индивидуальное воздействие на ЛОМов (лидеров общественного мнения), ситуационное информационное воздействие и пр.) – противоборство Щита и Меча не останавливается никогда. Но об этом поговорим в другой раз. Или не поговорим — тема Национальной Информационной Безопасности стала в 2013 году приоритетной для всех развитых стран мира и многие ранее публичные разработки получают гриф «национальная безопасность».
Пока еще «можно», раскроем некоторые технологические особенности и социальные аспекты «Щита».

Боевое начало


В июле 2013 года, по данным опроса Рейтер/Ipsos, свыше 70% населения США выступали против вооруженного нападения на Сирию. Активная информационная обработка «Асад использовал химоружие против мирного населения» и последующий (19-23 августа) опрос «населения» (аж 1448 американцев) привело ситуацию на грань войны: «Уже всего лишь половина (56%) американцев выступают против атаки на Сирию».

Итог информационной артподготовки – 31 августа мир замер в ожидании выступления Обамы: объявит ли «нобелевский лауреат мира» войну против Сирии?

Что бы узнать, на сколько картина в СМИ соответствует реальной ситуации, мы провели экспресс-исследование, за 2 дня собрав и проанализировав 1,7 млн сообщений, полную версию не публикуем дабы не засорять Хабр политикой, с краткими итогами можно ознакомиться в конце статьи.
А сейчас приоткроем завесу тайны «ЩИТа», позволяющих фактически в реальном масштабе времени получать достоверный анализ ситуаций и событий.

Технологические характеристики OBD&A

  • Технологический сбор данных: 5.000 сообщений в секунду
  • Информационный поток (без дублей): 17-18 млн сообщений в сутки (200/сек)
  • Пиковый тематический информационный поток: 60 сообщений/сек

Пиковый тематический информационный поток определяет реал-тайм возможности систем OBD&A для:
  • Автоматического определения тональности;
  • Геолокации сообщений;
  • Расчета (не)четких дублей (ретвитов, репостов);
  • Расчета аудитории авторов;
  • Разнообразных топ-рейтингов (частотки слов, авторов, стран, населеных пунктов и пр).

Кейс с Сирией позволил «в боевом режиме» протестировать возможности Платформы iLook и системы класса OBD&A BrandAnalytics, и определить технологические ограничения системы (MongoDB, Elasticsearch, Gearman, Memcached, MySQL, PHP, C#):
  • Тематический информационный поток – 10 млн сообщений в сутки;
  • Автоматическое определение тональности (самый медленный модуль) – 100 кб/сек в один поток.

Как это работает с «человеческой» точки зрения

1. По ключевым словам на различных языках собираются упоминания о тематике – всего система распознает 17 языков, использование поиска с расстоянием и других операторов языка поисковых запросов позволяет максимально точно настроить поиск. Например, мы можем задать поиск таким образом «Обама Сирия»~7 – это позволит найти сообщения, в которых упоминается Обама и Сирия в пределах 7 слов между ними. Таким образом, сообщения «Решение Обамы нанести прямой авиационный удар по Сирии» система добавит в тему анализа, а дайджесты новостей типа «1. Обама гуляет по Парижу: фото! 2. … 3. … 10. Джордж Клуни снялся в фильме про Сирию» — нет.

2. Сообщения анализируются по эмоциональной окраске (тональности) сообщений – лингвистическая объектная тональность позволяет автоматически определять эмоцию сообщений по отношению к заданному объекту. Например, сообщение «Иван – прекрасный человек, он сказал Петру, что Федор негодяй»: по отношению к объекту «Иван» — позитивно, к объекту «Петр» — нейтрально, а к «Федору» — негативно.

3. Сообщения геолоцируются – используется многопараметрический анализ открытых данных профиля автора, текстов его публичных сообщений и окружения, информация обновляется с каждым новым сообщением автора. Полученные данные обрабатываются через собственные гео-словари. Таким образом, если в профиле автора указано – Майами, а он ежедневно чекинется в кофе-хаузе в Бутово – мы геолоцируем его в Москве.

4. Собранные сообщения автоматически анализируются на наличие репостов/ретвитов/нечетких дублей – выявляем популярные точки зрения, избавляемся от спамеров и вбросов.

5. Анализируется информация об аудитории – количестве подписчиков каждого автора на момент публикации им сообщения. Алгоритм подсчета индивидуален для каждой соцсети и учитывает её особенности.

6. Автоматически формируются рейтинги сообщений – по аудитории, дублям, комментариям и тд.

Аналитикам остается минимум усилий – оценить данные системы, выявить существующие тренды и спрогнозировать развитие ситуации.
Что получаем на выходе?

Кейс 4. Военная операция запада против Сирии: глобальный мониторинг общественного мнения в соцмедиа


На графике показано кол-во сообщений за 31 августа: пик – ожидание и выступление Обамы об обращении к Конгрессу за разрешением атаки на Сирию:
image

Цель исследования — ответить на вопросы:
1. Насколько активно жители разных стран обсуждают ситуацию в Сирии.
2. Как относятся жители крупнейших стран НАТО и Турции к возможной атаке на Сирию.
3. Кого считают виноватым в сложившейся ситуации: Асада или оппозиционеров.

Характеристики исследования:
1. Длительность: 48 часов (2 суток)
2. Период: с 18:00 30 августа – 18:00 1 сентября
3. Количество сообщений: 1 745 549
4. Количество уникальных авторов: 605 484
5. Количество стран: 241 стран (11 397 населенных пунктов)

Исследования проводилось в основных социальных сетях: Facebook, Twitter, Вконтакте, Livejournal, Youtube и др. Исследовались упоминания по теме конфликта в Сирии и подготовки военной операции стран Запада против этой страны.

Наиболее активная дискуссия по ситуации в Сирии развернулась в интернет-пространстве США (46% сообщений). На втором месте — Великобритания (14%). В России (русскоязычный трафик составляет около 1% мирового) тема Сирии составляет 4% от общемирового.
image

Вторжение Запада в Сирию: отношение пользователей соцсетей

Абсолютное большинство пользователей социальных сетей во всех странах высказалось против вторжения западных стран в Сирию. Наиболее выражено неприятие интервенции в России (в 94% сообщений), Франции (90%), Германии (88%), чуть ниже – в Великобритании (84%) и США (83%). В Турции критика готовящейся западной операции против Сирии содержится в 64% сообщений.
image

Кто виноват в сложившейся ситуации: Асад или оппозиционеры

В американском сегменте социальных медиа пользователи склонны винить в сложившейся ситуации в Сирии правительство Асада (64% сообщений), нежели мятежников (36%), так же думают и в Германии (58% и 42% соответственно) и Турции (70% против 30% соответственно). Напротив, в Великобритании большинство усматривает вину мятежников (57%), а не режима (43%). Во Франции мнения разделились почти поровну (51% против 49% соответственно), В России виновниками однозначно считают мятежников (96% сообщений).
image

Общая краткая аналитика:

1. Наиболее активно ситуация с Сирией обсуждалась в интернет-пространстве США
2. Подавляющее большинство (свыше 85%) высказываются против нападения
3. В США и Германии население склонно обвинять в сложившейся ситуации правительство Асада, в России и Великобритании — большинство считает виновными мятежников.

Итоги здравомыслия

В октябре, проведенные социологические опросы в разных странах НАТО, показали 70-82% противников вторжения в Сирию. Выводы можете сделать сами.

Планы и сотрудничество


В 2014 году мы планируем новые «мировые» исследования, для которых надо поднять планку технологических порогов в несколько раз, а также приглашаем новых партнеров, имеющих опыт в области визуализации (Online) Big Data, построения социальных графов и окраски связей, прикладного искусственного интеллекта, автоматического построения шаблонов для вычленения значимого контента, семантического анализа текста, применения онтологических моделей, выявление новых трендов, адаптивной эмоциональной окраски, социологов, «хайлоадщиков» — всех, кто работает в смежных областях.

Ближайшей «крупной дичью» для OBD&A и оперативной социологии несомненно станет Олимпиада-2014, о результатах мы планируем рассказать здесь, на Хабре, а также на ежегодных «Грушинских чтениях» (не путать с музыкальными Грушинскими фестивалями :)) – крупнейшей ежегодной российской социологической конференции, где впервые будет специальная секция, посвященная использованию современных технологий по онлайн-мониторингу и социологических исследованиях в соцмедиа.

Здорово, что российские технологические разработки в сегменте OBD&A находятся на мировом уровне, и «бодаться» будет интересно — с мировыми лидерами (месяц назад Apple купил за $200млн компанию TopSy, специализирующуюся на сборе и анализе сообщений Твиттера, широко известную по мониторингу выборов президента США) – так что, друзья, welcome! – нас ждут интересные проекты и новые технологические решения :)
Теги:информационная безопасностьанализ социальных сетейаналитика социальных медиабудущее здесь
Хабы: Блог компании PalitrumLab Информационная безопасность
+6
7,5k 18
Комментарии 8
Похожие публикации
Лучшие публикации за сутки