Information Security
March 2013 25

Идентифицировать человека среди 1 500 000 пользователей мобильной связи можно всего по 4 точкам во времени и пространстве

Каждый из нас изо дня в день бывает в одних и тех же местах примерно в одно и то же время — дом, работа, спортзал, магазин, снова дом… Наш ежедневный маршрут достаточно стабилен и в то же время уникален. Совместное исследование американских и бельгийских учёных продемонстрировало, что степень его уникальности гораздо выше, чем можно предположить.

Анализ базы данных, в которой была собрана анонимизированная информация о времени и месте звонков и СМС 1 500 000 абонентов на протяжении пятнадцати месяцев показал, что для идентификации 95% людей достаточно знать всего четыре пространственно-временные точки.

Всего две точки позволяют различить индивидуальный след половины пользователей, а одиннадцати достаточно, чтобы различить все до единого следы. На иллюстрации слева приведены примеры таких индивидуальных следов. Авторы исследования сравнивают уникальность мобильного следа с отпечатками пальцев — в 1930 году французский пионер криминалистики Эдмон Локард показал, что для идентификации по отпечатку пальца достаточно двенадцати совпадений деталей рисунка.

Таким образом, получив из открытых источников (Facebook, Twitter, Foursquare, LinkedIn и т.п.) всего несколько характерных для человека пространственно-временных точек, можно деанонимизировать абонента мобильной связи среди миллионов записей, не содержащих вообще никакой персональной информации, и отследить все его перемещения.

При этом даже не требуется особая точность — в базе, использованной для анализа, место в пространстве определялось по базовой станции мобильной связи, а время указывалось с точностью до часа. Более того, уникальность мобильных следов хоть и уменьшалась с понижением пространственного и временного разрешения, но довольно медленно, и легко компенсировалась увеличением количества точек.

На графике слева показана зависимость степени уникальности следа при выборке из четырёх, а справа — из десяти точек. По горизонтальной оси отложено временное разрешение в часах, по вертикальной — пространственное (количество базовых станций):



Не являются помехой и большие скопления людей — плотность размещения базовых станций мобильной связи очень хорошо коррелирует с плотностью населения. Если в сельской местности одна базовая станция даёт пространственную точность в 15 км2, то в городах — 0.15 км2 и выше. Кроме того, 94% людей практически никогда не покидают территорию радиусом около 100 км. Таким образом этот метод хорошо масштабируется как для огромного количества абонентов, так и для больших территорий.

+124
120.2k 387
Comments 122
Top of the day