Data Mining
Big Data
Open data
Data visualization
22 August 2017

Измеряем динамику упоминания сущностей в информационном поле



Сегодня мы покажем дашборд с визуализацией данных о динамике популярных сущностей, засетапим для пользователей хабра отдельный инстанс и дадим на нём возможность следить за собственными показателям, добавив регулярку.

Подробнее о том, что здесь происходит


Мы занимаемся изучением сети интернет, в частности, имеем возможность за день обходить все зарегистрированные домены мира по мордам и обрабатывать информацию. Продукт достаточно сложный и в целом для популяризации изучения открытых данных мы запустили инстанст, который сканирует ежедневно топ 1 миллион сайтов мира по версии Алексы, обсчитывает контент по 300+ регуляркам и выводит показатели на дашборд.

Для понимания интереса ранее была опубликована статья, результаты опроса которой нас не могли не обрадовать:



Несмотря на откровенно жёлтый заголовок статья получила достаточно неплохую оценку, но главное:

  • 191 (52%) — однозначно заявили о своём желании провести исследование
  • 123 (34%) — мы записали вас в свою банду
  • 53 (14%) — ок, но вы заходите, если что

ЦА — 314 пользователей хабра, мы не могли оставить вас без внимания и пошли пилить дашборд под эту дискотеку.

Дашборд мы разместили на сайте statoperator.com


Чтобы замеряя свои собственные показатели, вам было с чем их сравнить — мы выложили в открытый доступ данные по имеющимся сущностям в динамике за пару месяцев.

  • инстанс ежедневно, в 19:00 по МСК обходит список сайтов топ 1,000,000 (за час)
  • каждый успешный ответ веб-сервера разбирается всеми теми регулярками по сущностям, которые вы сейчас видите в легенде + те, которые добавите сами

Все показатели и настройки при работе в дашборде прокидываются в урл.

Как добавить регулярку?



Заполнить форму

Data source — header/html/text (в хедере ответа веб-сервера/в коде html/в выделенном из документа тексте)
Regex type — тип регулярки: mentions/hosts (количество того, что находится в документе по регулярке/было что-то найдено или нет)
JAVA regexрегулярка

Тестировать удобно здесь

Все адекватные регулярки появятся дашборде после очередной итерации.

+10
4.1k 29
Comments 12