Ailpein 10 сен 2020 в 10:01

Расследование: как обезличенные данные становятся персональными и продаются на сторону

14 мин

38K

Исследования и прогнозы в IT*Интернет-маркетинг*Бизнес-модели*Облачные сервисы*IT-компании

+73

Комментарии 74

Tuker 10 сен 2020 в 11:04

Крутая статья. Даже не имея технического бэкграунда было интересно дочитать до конца.
p.s. Интересна реакция Яндекса на подобные заявления в свою сторону…

Почему об этом честно не сказать своим клиентам, ведь все и так лежит на поверхности?

Вероятно потому что большая часть аудитории, увидя такое «прямое» заявление, постарается заменить все сервисы Яндекса на продукты других компаний. Но проблема в том, что «другие компании», возможно, работают по такой же схеме.

simple_mortal 10 сен 2020 в 20:23

Всмыле

возможно, работают по такой же схеме.

Яндекс что, сам всё придумал что ли? :) Слушайте, вы нигде не найдёте компании, которая будет бесплатно давать крутые штуки. Ну, например, яндекс карты. Я не знаю, что есть лучше в России. Гугл даже близко не стоит к яндексу в этом плане. Ну понятно, что если ты ни за что не платишь, значит товар — ты сам. Можно юзать опенсорс, но мы все понимаем, что там немного не на том уровне всё. Я к тому, что автор не открыл никому никакой тайны. То, что нашими данным банчат там и сям, это не секрет. И никуда юзеры яндекса не уйдут. Просто потому, что яндекс тут лучше, чем гугл или кто-то ещё. Они лучше понимают своего клинта, потому что работают именно на него. Дают фичи, которые нужны ему. И клиенту, будем честны, наплевать куда там его данные продают. Ну тебе не всё равно. Но на одного тебя есть хренова гора людей, которые даже не думали о том, что на них зарабатывают. И потому ничерта тут не изменится. Да, жаль (наверное). Но что есть, то есть. Уже много раз говорили: «хочешь приватности, иди в лес». Да и то, не факт, что и там не достанут.

Wernisag 11 сен 2020 в 09:20

У 2ГИС карты лучше. Маршруты строит точнее, каталог организаций актуализируется быстрее.

Newbilius 11 сен 2020 в 10:01

… но покрыты далеко не все города.

John_Cena 11 сен 2020 в 10:05

Вопрос лишь в том, чьим партнёром является 2гис. Ведь он предоставляет сервис на схожих бесплатных условиях, а соответственно также максимально пытается использовать все каналы монетизации.

Wernisag 11 сен 2020 в 10:20

Они берут деньги с организаций за продвижение на картах и в каталоге. Если не ошибаюсь, то у них оплачиваются клики по форме с контактами, номер телефона, почта, адрес сайта.

playnet 11 сен 2020 в 12:56

И как это мешает продавать «обезличенную» информацию а-ля яндекс и гугл? Много денег не бывает.
Из более безопасного есть OpenStreetMap — открытый формат карт, который правится жителями, и клиенты вроде OSMand. Правда, с яндексом вообще не сравнить удобство, это просто каменный век, плюс нет всяких пробок, радаров… С другой стороны, здание в промзоне только он и знал, яндекс и гугл вообще в другое место отправляли. (и приехал по osm я именно туда, куда мне и надо было, а не в другие места)

sergyalosovetsky 11 сен 2020 в 10:05

Есть некоторые не совсем очевидные проблемы
Во-первых, свобода выбора. То есть это я как пользователь должен решать, хочу ли я продавать свои данные в обмен на доступ к неким сервисам? Яндекс или гугл не являются лучшими во всем, что другого выбора будто нет.
Есть waze или navitel как карты, есть спотифай как музыка, есть различные сервисы доставки или такси, которые не имеют ничего общего с uber или яндекс. Поиск — есть тот же бинг.
Для многих людей было бы гораздо приятнее платить пару долларов в месяц за нужные сервисы и быть свободными от слежки.
Во-вторых, человеческий фактор
Всё более-менее ок, когда вся эта инфа используется, чтобы сделать жизнь пользователю удобней, проще и дешевле.
Но может быть ведб куча способов, когда информация собранная с «твоего» разрешения, при том бесплатно, будет в результате использоваться против тебя же!
Примеров может быть куча — например, зная уровень твоего дохода, подсовывать тебе на первых строках поиска самые дорогие решения, сообщать каким-то Партнерам, что ты багатенький буратино, который очень сильно хочет купить какой-то товар или услугу — чтобы тебе завысили цены или отменили скидки. Или сообщать банкам, что ты неблагонадежный клиент — и ты будешь получать кредиты с гораздо большей процентной ставкой.
Операторы в яндексе тоже люди — и они могут сливать инфу о тебе (совершенно конфиденциальную!) всем остальным за плату
Или просто могут тебе отомстить, используя свое рабочее положение, если ты им насолил в прошлом
В-третьих, если пользователи утрутся сейчас, то что дальше?
Дальше будет еще хуже
Умные дома постепенно приходят в мир
Это камеры, умные колонки с еще более умными микрофонами, многочисленные датчики
Умные машины
тот кто владеет информацией — владеет миром
яндекс, собственно, будет владеть пользователями (и уже владеет многими)
яндекс формирует твои интересы, твое образование, твои политические и религиозные взгляды (разумеется, нынешний политический режим ни как на это не повлияет, два раза), круг твоих друзей, твои ожидания от президента, твое довольство нынешней обстановкой…
если некоторым пользователям такое нормально — то это их личное мнение, я уверен, что многим будет не все равно

John_Cena 11 сен 2020 в 11:52

Агрегация больших объемов данных о человеке, о его решениях и поступках, влечет за собой потенциальную угрозу всем людям.
Довольно хорошо эта идея показана в 2-3 сезоне «мир дикого запада».
Сегодня это возможно кажется фантастикой, но фантастика постепенно приходит в наш мир. То, что казалось недавно удивительным, сегодня является обыденным.
Обладание очень большой выборкой информации о людях, что они делают, когда, как. Это позволит создавать психологические портреты, статистический образ. И уже с помощью этого образа определять рычаги воздействия.
Потому, как просто большая прибыль это хорошо, но у многих компаний она есть. Сегодня она есть, а завтра ее нет. Инструмент контроля вот, то что нужно очень многим в том числе и на государственном уровне.

sergyalosovetsky 14 сен 2020 в 00:45

Ну, в основном, большие данные собираются и используются именно для получения больших денег
либо для власти — как в ситуации с кембридж аналитика — но результатом власти становятся еще большие деньги

Ailpein 11 сен 2020 в 10:20

Давайте приведу простую аллегорию.

Завтра Яндекс представит сервис Яндекс.Холодильник. Это будет программно-аппаратный комплекс, суперсовременный, с интернетом вещей и автоматическим заказом и подвозом продуктов.

Чтобы развить базу клиентов, Яндекс сделает для новых пользователей льготный период — любые продукты будут поступать в холодильник совершенно бесплатно. Но есть нюанс — как только вы будете их брать, чтобы скушать или что-то приготовить, Я.Холодильник будет отчитываться своему «товарищу майору» о вашем поведении. Будет втихую от вас считать время изъятия продуктов, съеденные вами калории, определять полезность заказанных блюд и кулинарную эстетику сочетания тех или иных ингредиентов. На основе всего этого будет рассчитываться некий рейтинг. И, конечно, Я.Холодильник попутно будет делать фотографию вашего лица, каждый раз, когда вы будете открывать дверцу.

Все собранные данные, безусловно, «будут обезличены хэшем MD5», и попадут на хранение и обработку третьей стороне — сети медицинских клиник, которая будет рассчитывать стоимость услуг исходя из вашего «портфолио».

И когда в следующий раз потребуется визит к доктору, будь то плановый или хуже того — внеплановый, клиника будет проводить расчёт стоимости исходя из «данных, полученных из открытых источников». Грубо говоря — полгода пил пиво и ел свиные ребрышки? Окей, для вас, сэр, всего +300% к базовому тарифу на лечение гастрита.

НЛО прилетело и опубликовало эту надпись здесь

victoriously 11 сен 2020 в 11:26

будет втихую от вас считать время изъятия продуктов, съеденные вами калории, определять полезность заказанных блюд и кулинарную эстетику сочетания тех или иных ингредиентов.

Я.Холодильник — теперь с удобным трекером калорий и оценкой полезности пищи!

Yuriks111 11 сен 2020 в 11:17

Да, распространенное мнение «мне скрывать нечего» и «и так все все знают».
Но, основная проблема тут не в последующей назойливой рекламе. Намного опасней социальная инженерия, когда по собранным о человеке данных можно 1) получить от него недостающие конфиденциальные данные (неожиданный звонок от «родственника» или из «банка») и 2) пройти онлайн идентификацию. Например, в банке.

Newm 10 сен 2020 в 11:07

который заходил на определенный сайт или искал определенный товар, и звонить ему в своих рекламных целях. Или отказать в выдаче страховки или банковского кредита.

Звонить в рекламных целях они не могут. В законе (даже в двух) по этому поводу есть прямой запрет.

А вот отказать в выдаче кредита — это запросто. И полагаю, что даже законно, так как в процессе подачи заявки будет требоваться разрешение на обработку соответствующих ПД. Хотя… Там даже по 152-ФЗ и разрешение спрашивать не надо, т.к. оно подходит под:

5) обработка персональных данных необходима для исполнения договора, стороной которого либо выгодоприобретателем или поручителем по которому является субъект персональных данных, а также для заключения договора по инициативе субъекта персональных данных или договора, по которому субъект персональных данных будет являться выгодоприобретателем или поручителем;

Fr0sT-Brutal 10 сен 2020 в 18:05

Звонить в рекламных целях они не могут. В законе (даже в двух) по этому поводу есть прямой запрет.

Это уже давно придумали как обходить. Бесплатное обследование. Бесплатная кепка при покупке квартиры. Или спецпредложение, о желании прослушать которое предварительно спрашивают. Итог-то один — звонок, отвлечение и трата времени на ненужный шлак.

Newm 10 сен 2020 в 18:37

Бесплатное обследование. Бесплатная кепка при покупке квартиры.

В законе не сказано, что можно рекламировать что-то бесплатное. Там четко сказано, что рекламировать без согласию нельзя ничего.

Или спецпредложение, о желании прослушать которое предварительно спрашивают.

Обзвон без участия человека запрещен. Так что предварительно спрашивать тоже незаконно.

Но… Я согласен, что это заколебешься доказывать, а уж с идиотией от андроида, с которым нельзя записать звонок это становится еще сложнее, т.к. ФАС требует для открытия дела именно запись звонка:(.

Fr0sT-Brutal 10 сен 2020 в 20:03

В законе не сказано, что можно рекламировать что-то бесплатное. Там четко сказано, что рекламировать без согласию нельзя ничего.

Так они не говорят «реклама». Это бесплатная промоутерская акция.

Обзвон без участия человека запрещен. Так что предварительно спрашивать тоже незаконно.

Вот здесь было бы здорово, если б работало.

playnet 11 сен 2020 в 13:30

Ксяоми, реалми — есть кнопки записи. В особо ущербных фирмах — скорее всего можно поставить из магазина другую звонилку. Если же это принудительно блокируется — может, стоит поменять телефон и навсегда забыть данную фирму?

Newm 11 сен 2020 в 17:06

На двух летней ксяоми есть такая кнопка, на однолетней уже нету:(. Из комментария я не понял, предлагается забыть ксяоми?

DonStron 14 сен 2020 в 15:29

На большинстве андроид телефонах физически запись звонков с линии не блокирована. Так что если в родной прошивке нет кнопки — просто попробуйте поставить приложение записи звонков, например такое. На некоторых телефонах, правда, например у Хаувея, нужно будет ещё настроить энергосбережение для подобных программ, чтоб телефон не усыплял приложение и запись стартовала нормально.
А вот телефоны от Эппл однозначно в пролёте с записью звонков (физически заблокирована возможность), впрочем среди всех моих знакомых, пользующихся Эпплом — никто не считает это минусом.

Vodol 15 сен 2020 в 11:18

На сколько мне известно, в Андроиде начиная с 10-й версии запись звонков заблокирована на уровне системы. Об этом можно судить и по отзывам на Google Play к приложению, которое вы порекомендовали. Голос собеседника можно записывать только через микрофон, включив громкую связь.

playnet 17 сен 2020 в 21:05

realme 6i, android 10, запись есть в штатной звонилке.

Lennonenko 15 сен 2020 в 18:06

а уж с идиотией от андроида, с которым нельзя записать звонок это становится еще сложнее

во-первых, рут, магиск и колл рекордер, и не обязательно всё это делать самому (правда, тут тоже вопрос доверия всплывает)
во-вторых, тот же андроид (да и яндекс) нормально блокирует большую часть телефонного спама, я каждый день вижу в списке вызовов пару-тройку заблокированных вызовов от МТС, РТК, банка восточный и телеопросов

lokkersp 17 сен 2020 в 10:14

Обзвон без участия человека запрещен. Так что предварительно спрашивать тоже незаконно.

мммммм, вчера 3 раза IVR от сбера звонил, с предложениями…

Schrodingers_Kater 10 сен 2020 в 12:50

С дешифровкой хэшей вы занимаетесь ерундой — кто сказал, что подсчет производился на данных в бинарном виде, это мог быть юникод, джейсон и много чего ещё. Тут и соль никакая ненужна.
А передача данных сторонним организациям по партнёрскому договору с ними, официально прописана в этом самом договоре…

-4

kolegich 10 сен 2020 в 13:05

Вы наверно не до конца поняли суть: хэшируется только номер телефона в формате, который указан Яндексом в открытом виде. Никаких джейсонов сервис Яндекса не поддерживает, только хэш от числа определенного формата, на сколько понял

Tatikoma 10 сен 2020 в 18:29

Тогда и дехэшировать ничего не надо.

Храним md5(телефон). Приходит запрос на скоринг телефон — ищем в базе по совпадению md5(телефон)…

Schrodingers_Kater 10 сен 2020 в 22:39

Вынужден с вами не согласиться. Суть я как раз понял, но вы, также, как и ТС, видимо, не совсем представляете принцип хэширования данных. Поясняю: хэш строится на основании последовательности байт, переданных в функцию и именно байт, а не символов. А вот что из себя представляет эта последовательность байт — это большой вопрос.

Наглядный пример

Номер телефона в следующих примерах: 88001234567

Передан в виде текстовой строки, где каждый байт представляет собой символ из таблицы ASCII, соответствующий каждой цифре номера — 2d6895b3050243a6150c87cad8825655
Передан в виде текстовой строки, где каждые два байта представляют собой символ из таблицы UCS-2 BE (Unicode), соответствующий каждой цифре номера — e8c7f423b90a8f01cb02174e5a369c0a
Передан в виде текстовой строки, где каждые два байта представляют собой символ из таблицы UCS-2 LE (Unicode), соответствующий каждой цифре номера — 891b3d0cffe18d8cc22dfbc97878992d
Передан в виде последовательности байт, где каждый байт представляет собой число, соответствующее каждой цифре номера — 804584012e982aa00830a73937b86bf1
А это бонус, здесь каждые полбайта представляют собой число, соответствующее каждой цифре номера — c2d2df9d446ed5e221e577dabde95667

И вот скажите мне пожалуйста, какой из вариантов правильный? Вероятнее всего, вам покажется, что это четвертый пункт. Но это не так. Здесь нет правильных и неправильных вариантов — все они пригодны для хэширования данных. Все зависит от автора кода и техпроцесса, в котором эти данные передаются. Замечу, что четвертый (и тем более пятый) пункт более сложен в реализации, так как данные от пользователя в преобладающем большинстве поступают в текстовом виде и преобразовывать их в числовую последовательность никто специально не будет.
~~Соль~~ суть хэширования в том, что исходные данные знает только то лицо, которое их хэширут и то лицо, для кого эти данные предназначены.
Про джейсон вы не совсем поняли, данные можно представить и так:

{"phone": "88001234567"}

Здесь хэшировать строку можно прямо в таком виде (hash: 1772667c4aa2de4b3ff097903884aa9e).

Следовательно, автору статьи нужно точно знать, что из себя представляли данные на входе хэш-функции, чтобы получить тот же номер, а не случайный набор цифр.
Спасибо за сомнение — заморочился на пример. И не лень ведь было. :D

Ailpein 11 сен 2020 в 10:07

Формат данных, которые должны быть поданы на вход в хэш-функцию, Яндекс зафиксировал и описывает в разделе справка сервиса Яндекс.Аудитория

playnet 11 сен 2020 в 13:38

В любом случае яндекс делает нормализацию. Самое банальное — EMAIL@mail.ru, Email@mail.ru, emaiL@mail.ru — это всё 1 почта, поэтому такие вещи как логины, почта — используют всякие .toLower(). Также в телефонии почти всегда нормализуют +, (), -, пробелы. Так что да, никто не страдает глупостью с расшифровкой хэшей, а ведь можно и sha256 взять. Просто нормализуют, потом хэшируют входные данные и простейшим поиском за миллисекунды получают нужную связанную запись. Тем более ни сама почта, ни номер напрямую не используются (хотя если они нужны — они есть в открытом виде на входе).
Ну и главное. В базе допустим 100млн хэшей. Даже если на «расхэширование» тратить 0.01с, это просто не будет работать на таких объёмах. Так что исключительно сравнение хэшей.

Schrodingers_Kater 11 сен 2020 в 22:42

Перечитал еще раз статью (может быть я что-то упустил; на самом деле по тексту много нюансов, но некритичных), пришлось разобраться с сервисом «Аудитория». Надеюсь этот ответ будет исчерпывающим.
Во первых, БКИ не использует сервис «Аудитория» однозначно, сервис работает по принципу от общего к общему, а БКИ нужно от частного к частному. Между Яндексом и БКИ должен быть договор иного рода. Тем более на выходе у БКИ все равно будет некий «коэффициент лояльности» и им в руки никогда не попадут личные данные, собранные Яндекс. Разговор между ними условно выглядел так: давайте, мы вам мыло или телефон клиента, а вы нам число от 0 до 10, кому можно кредит давать, а кому нет. Как вы там это будете считать, с помощью толпы математиков или шамана с бубном нас не интересует, но чтобы данные были точные (речь про коэффициент, просто число).
Во вторых, сервис «Аудитория» работает иначе — вы загружаете туда телефон одного человека, а он вам возвращает тысячу человек похожих на того, которого вы туда загрузили. И чем конкретней вы будете подбирать клиентов для загрузки, тем точнее вам сервис вернет подходящую аудиторию. И учитывайте, что данные об аудитории вы не получите, Яндекс сам доставит рекламу предполагаемой аудитории. Также замечу, что на скриншоте опущен комментарий к форме: «Файл должен включать не менее 1 000 записей и соответствовать требованиям.», что дает большую ясность картины.
В третьих, частичное хэширование данных (номер, почта) при загрузке файла в сервис предназначено для защиты тех клиентов, которых вы загружаете в сервис. Это, примерно, на тот случай, если у вас в офисе отключили интернет и вы попросили прохожего загрузить данные с флешки в соседнем интернет кафе. Данные сильно короче хэша — просто защита от дурака.
И замечу, что я ни коим образом никого не защищаю, просто при более детальном рассмотрении возникают некоторые несоответствия.
Ошибкой яндекса было указывать в подсказке рабочие хэши, если это, правда не коллизии на номера.
История этой деперсонализации длинная, но это можно сравнить, например, с блюром — по контурам можно определить ту или иную категорию, но точный рисунок уже получить невозможно. И здесь то же самое, вы просите Яндекс показать рекламу тем, кто в блюре похож на квадрат или треугольник. Но вы никогда не узнаете кому он ее показал. По этому рекламодатели проводят свои опросы — как вы о нас узнали, из рекламы в интернете, ага и ставят плюсик. А потом сравнивают цифры рекламных источников и понимают сработала эта таргетированая реклама или нет.

Schrodingers_Kater 11 сен 2020 в 22:58

Хотя… я вот сейчас подумал, а ведь сквозная реклама вполне возможна… если клиент в профиле почты указал еще и свой телефон.
Но, тут речь о другом, все эти базы — абстракция. Вы обращаетесь к сервису и говорите, у нас отоварилось сто человек, вот их номера, подберите нам пожалуйста еще десять тысяч человек, которые точно купят наш товар. И по «шаманским» алгоритмам сервис возвращает, по его мнению, похожих людей. Но часто выходит, что это просто тыканье пальцем в небо.

kolegich 10 сен 2020 в 13:04

Наверняка, по такой же схеме работает и Мейл.ру и другие крупные IT организации?

pvp 10 сен 2020 в 14:38

«Все эти методы, будем говорить прямо, незаконны, так как нарушают положения закона «О персональных данных» (№152-ФЗ)»

Общеизвестные данные могут обрабатываться невозбранно. Так что ничего они не нарушают, если берут данные, сделанные общедоступными самим их обладателем.

-9

mitgard 10 сен 2020 в 15:03

Вы серьезно? Пользователь условно Яндекс.Такси, регистрируясь в приложении и оставляя свой номер, не делал его общедоступным. Он собирался воспользоваться сервисом Такси, а по факту его данные начинают использоваться для прочих целей и передаваться третьим лицам.

pvp 10 сен 2020 в 15:42

Я говорю про данные из профилей соцсеточек.

-4

mitgard 10 сен 2020 в 15:52

это да, но речь в статье о другом

vikarti 11 сен 2020 в 17:15

Даже у ВКонтакта настройка видимости страницы имеет 3 значения: Только пользователям ВКонтакта, Всем, Всем, кроме поисковиков (и комментарий что это сокрытие страницы например от гуглояндексов (видимо).
Если у пользователя стоит что-то кроме варианта «Всем» — почему это считается что он согласился сделать данные общедоступными?

Schrodingers_Kater 10 сен 2020 в 22:47

Есть один нюанс. Как часто вы читаете договор оферты, когда регистрируетесь в том или ином приложении? Чаще всего, в каждом из них прописан пункт на право использования данных организатором или его партнерами (в соответствии с ФЗ конечно). Просто организатор умалчивает, кто являются его партнерами.

Newm 11 сен 2020 в 09:12

Чаще всего, в каждом из них прописан пункт на право использования данных организатором или его партнерами (в соответствии с ФЗ конечно). Просто организатор умалчивает, кто являются его партнерами.

Если речь идет об обработке персональных данных, и не экзотика в виде обезличенных, то передача их кому-либо здорово ограничена и допускается только в конкретных целях, прописанных в 152-ФЗ. В остальных случаях пункт в оферте ни на что не влияет. Должно быть отдельное согласие физлица, причем отсутствие такого согласия не может препятствовать заключению договора (оферты).

alexxz 10 сен 2020 в 15:45

Пара замечаний про взлом md5. Все случаи как такового «взлома» на настоящий момент относятся не к обратимости md5, а к тому, что можно относительно легко сгенерировать пару строк для коллизии. Подобрать колизию к наперед заданному хешу (обратить) на данный момент не удалось никому. Потому говорить о взломе md5 еще очень рано.

Теперь перейдём к хешированию. Необратимо захешировать номер телефона на современных мощостях не представляется возможным. Какой бы алгоритм хеширования вы не выбрали, перебрать все 9ти значные числа — ничего не стоит. Их всего миллиард. Даже не надо иметь для этого видеокарт. Можно просто составить таблицу на миллиард записей. Что интересное длина хеша при этом не играет уже никакой роли. Только сложность алгоритма, вернее время его работы.

Добавление соли — обязательное условие, но даже оно не является достаточным. Знание соли и механизма хеширования достаточно для того чтобы восстановить номер телефона.

Примерно то же самое относится и к хешированию email. email перед хешированием обычно нормализуется (приводится к одному регистру). Популярных доменов для email — десяток. Остаётся только брутфорсом перебрать имена ящиков на довольно ограниченном множетсве символов [a-z0-9]. Хотя гарантированной обратимости тут еще пока нет, но на практике доля обратимых имейлов очень большая.

kolegich 10 сен 2020 в 16:19

Согласен и удивлен почему площадки типа яндекса не придумали схему асинхронным шифрованием, например rsa.

mk2 10 сен 2020 в 17:46

Если даже не углубляться в конспирологию, при использовании схемы с rsа, если работать честно, то придется каждый номер шифровать ключом каждого заказчика. А если схитрить, то никто не мешает сгенерировать все 10 миллиардов телефонов (меньше, вред ли нам дали не мобильный номер) и установить, каких именно пользователей нам зашифровали.

kolegich 10 сен 2020 в 17:52

Согласен, когда мощность шифруемого множества небольшая — ничего не поможет

alov_i 11 сен 2020 в 10:05

Прошу прощение за занудство, но вы скорее имели в виду асимметричное шифрование

vikarti 11 сен 2020 в 17:29

Примерно то же самое относится и к хешированию email. email перед хешированием обычно нормализуется (приводится к одному регистру). Популярных доменов для email — десяток. Остаётся только брутфорсом перебрать имена ящиков на довольно ограниченном множетсве символов [a-z0-9]. Хотя гарантированной обратимости тут еще пока нет, но на практике доля обратимых имейлов очень большая.

Удачи. (например имена ящиков это НЕ [a-z0-9], там больше допустимых символов (читаем например habr.com/ru/post/274985 а вообще таких статей несколько), и что еще хуже для любителей реверсить — разные сайты по разному проверяют корректность, большинство делают это неправильно(иногда — намеренно), но по разному неправильно).
Насчет «десятка» доменов — ну например у mail.ru у одних 4 штуки в форме регистрации.
У Hotmail/Live.com — 3-5 доменов… и обычно 1-2 — уникальны для каждой из поддерживаемых стран(всякие live.com.pt/live.ru) (см например www.internetearnings.com/how-to-register-live-or-hotmail-e-mail-address )
А если вспомнить почти-бесплатные варианты вроде возможности взять свой домен и бесплатную почту для домена от Яндекса например?

alexxz 14 сен 2020 в 10:07

Все верно. Я так и сказал, что прямого способа расшифровки нет и пока не предвидится. Но если сосредоточиться не на 100% расшифровке, а на расшифровке самого простого или популярного, то обнаружится много классных статистических особенностей, которые позволяют расшифровать довольно много. И особенности довольно простые.
Отвечая на ваши замечания.
Допустимое разнообразие почтовых адресов, конечно, шире, чем я написал. Только вот реальные пользователи используют эти адреса на тех самых сайтах, которые валидируют их неправильно, сами же пользователи диктуют эти адреса голосом. Вобщем, пользователи делают достаточно простые или короткие адреса для своего удобства.
Касательно же доменов почтовых сервисов — да, их довольно много. Но если мы будем говорить про какую-нибудь конкретную страну, то обнаружится, что подавляющее большинство адресов представлено с небольшого ограниченного числа доменов специфичных для конкретной страны или даже группы стран.

alexxz 10 сен 2020 в 15:59

Дополню статью, относительно недавно узнал, что даже не на чёрном рынке, а весьма открыто есть сервисы по опрделению номера телефона посетителя сайта (гугл в помощь). Вот едешь в автобусе, видишь автосалон известной марки, заходишь к ним на сайт посмотреть цены, а они тебе сами уже названивают. Это не фантастический фильм. Это — реальный пример. У меня есть догадки как именно они определяют номер телефона, но ни одна из этих догадок не связана с законностью или профессионализмом.

hatari90 10 сен 2020 в 16:42

Как-то лазал по сайту одного застройщика, и через 5 минут звонок от тинькофф с предложением их партнерки по ипотеке (тогда она еще была).

Tatikoma 10 сен 2020 в 18:31

С телефона лазали? — Тогда это скорее всего сам мобильный оператор слил… На хабре была статья, как операторы телефон в трафик прокидывают в http-заголовки…

hatari90 11 сен 2020 в 02:06

Нет, с пк.

ianbrode 10 сен 2020 в 20:40

С wi-fi мгтсовского заходил на Я.Недвижимость, почти сразу начал звонить Тинёк, предлагать ипотеку

vikarti 11 сен 2020 в 17:38

Некоторые сервисы такого типа даже не особо скрывают

Основной вопрос, который нам постоянно задают – «как сайт узнает номер»? Наша технология легальная, запатентована, имеется аккредитация в РосКомНадзор.

На ваш ресурс ставится специальный счетчик, внешне похожий на Яндекс.Метрику или Google Analitics. Данный счетчик считывает цифровой след посетителя, а именно — его IP, данные браузера, операционной системой, параметрами монитора и т.д. Далее, эти данные сопоставляются с отпечатками пользователей, которые имеются в нашей базе. По тем записям, где произошло совпадение — мы предоставляем вам телефон посетителя.

Читать — мы достаем базы. Где — не скажем (может и у яндекса). И отслеживаем клиента везде где можем.

support_alteros 16 сен 2020 в 10:10

Возможно технологии WantResult :)

vanxant 11 сен 2020 в 00:59

Раньше соцсети сливали вас с потрохами через все эти виджеты и пиксели. Сейчас не знаю

Sabubu 19 сен 2020 в 00:05

А вы хотя бы раз оставляли в Интернете (например, при оформлении заказа в интернет-магазине) свой номер телефона и данные о себе? Если так, то зря, так как многие сайты интегрированы с системами аналитики, которым передаются данные о клиенте. Получается, что возможна такая схема:

вы оформляете заказ
магазин сливает данные о вас 10 разным системам аналитики, которые собирают "отпечаток" вашего браузера, ваш IP и привязывают к ним ваши данные
спустя месяц вы заходите на какой-то другой сайт, где стоят эти системы аналитики, они вас узнают по "отпечатку" браузера, кукам или чему-нибудь еще и передают ваш номер владельцу сайта

Тут, по моему, 100% незаконная схема, но в нашей стране законы о ПД все равно не работают, потому их никто не наказывает.

Вторая схема сбора — кликджекинг. Вы заходите на сайт, вам под мышку подводится прозрачная кнопка вступления в группу вконтакте, вы на нее жмете, и сайт знает ваш профиль в соцсети. Это, правда, больше не для сбора телефонов, а профилей в соцсети.

Fr0sT-Brutal 25 сен 2020 в 18:04

Если так, то зря

А как иначе-то? Сейчас ни одна собака не примет заказ без подтверждения звонком. Даже смс уже не котируется. Вот разве что Ситилинк исключение. Интересно, а если заказывает глухой или немой — как быть?

61brg 10 сен 2020 в 20:10

ИМХО, закрыть персональные данные не удастся. Остаётся только их замусорить

Alexwoodmaker 10 сен 2020 в 20:14

Когда-то работал в Яндексе в группе админов внутренних сервисов. Рядом за закрытой стеклянной дверью сидели безопасники. Неоднократно был свидетелем того, как ребята, невзирая на должности, футболили спецпосетителей на предмет доступа к почте клиентов. Увы, времена меняются: money talks!

Fr0sT-Brutal 11 сен 2020 в 13:40

Конечно)) «Это наша корова, и мы её доим»!

miruzzy 10 сен 2020 в 20:14

Я вот поигрался с хэшкотом в РБ… сейчас на мне за него висит статья за использование вредоностного ПО )))
Сорь, что не по теме

denisshabr 11 сен 2020 в 15:53

Очень интересно почитать об этом подробнее.

alunyaka 10 сен 2020 в 20:14

Кстати, давно хотел узнать — есть ли возможность где-то посмотреть как Яндекс, кхм, «видит тебя»?
По аналогии как у Гугла: adssettings.google.com/authenticated?pli=1

Xobotun 10 сен 2020 в 22:24

Когда-то был Яндекс.Робот, но его, кажется, вскоре после релиза прикрыли. Там были ползунки, что вы "на 15% холостяк", на "80% программист", "на 20% зоолог" и т.п.

Кстати, а что у вас по гугловой ссылке? Я, похоже, когда-то отключил себе персонализацию рекламы, и там нет ничего интересного, даже если включить её обратно. :/

alunyaka 15 сен 2020 в 10:43

Извините за долгий ответ, как-то пропустил ваш комментарий.
По ссылке у меня отображается очень длинный перечень как бы тегов, которые Гугл связывает со мной. Какие-то просто указывают на вещи, которые я часто гуглю («Аудиотехника», «Linux», «Ozon» и т.п.), другие же показывают его непойми с чего взятые предположения обо мне (например «Высокий доход» — вот уж где, к сожалению, он ошибся) :)
Если считаешь, что какая-то информация о тебе ошибочна, то можно кликнуть на тег и убрать его.
Вот скрин кусочка этих данных i.imgur.com/n8wtcUl.png

Kib0rg 11 сен 2020 в 04:58

Конспирология такая конспирология.

Иначе в интерфейсе для рекламодателей должно было бы присутствовать поле для указания соли. А его там нет!

А для чего нужно было бы знать Яндексу соль, с которой телефоны хэшируются на другой стороне? Как раз если бы там было поле для ввода соли, это было бы подозрительно.

Очевидно, что самый быстрый и простой вариант — использование радужных таблиц

Неправда. Если телефоны несолёные (хотя как мы выяснили выше, это совершенно необязательно так), то самый быстрый вариант — предпосчитать и хранить несколько миллиардов и даже триллионов хэшей md5 от всех потенциально возможных номеров телефонов. А если используется соль (неизвестного формата и длины), то и радужные таблицы не сильно помогут.
А вообще, в статье домыслы на домыслах и домыслами погоняют: «разумно предположить», «веры нет никакой», «скажем прямо» и остальное, ну куда это годится. Хотел почитать про «слежку от яндекса», а оказалось, там всего лишь выкатили недотестированный релиз. Ну это что получается, шпион все собираемые данные ещё и на устройстве жертвы сохраняет? Для бэкапа что ли, чтоб не потерять, или чтобы его обнаружили побыстрее?
Не факты, а одни лишь предположения, местами ещё и необоснованные выводы, ну на троечку с минусом, я бы сказал.

-5

bonta 11 сен 2020 в 10:05

Немного странно осознавать то что твои персональные данные (их деобезличивание на вычислительных мощностях Яндекса) подогревает воду в системе отопления твоего дома, как это происходит в финском городке Мянтсяля, где система охлаждения ЦОД Яндекса соединена с теплосетью города.

alexey_c 11 сен 2020 в 12:25

Автор топит за защиту своих данных, но в расследовании использует ПО, в пользовательском соглашении которого написано (примерно) "… соглашается с тем… все контакты с устройства пользователя будут по умолчанию и без вариантов, полностью переданы неизвестно куда для использования сервисом..".
Странно это.

А по поводу описанного использования данных — так да, что в этом такого?
Сервис использует эти данные.

Я собственными глазами видел систему, которая держит у себя в базе хэши телефонов клиентов и обменивается ими с яндексом.
При этом никакая информация, _по закону_ относящаяся к ПД, не передаётся.

Цели -в основном сэкономить кучу денег на затратах на нерелевантную рекламу.

denisshabr 11 сен 2020 в 15:59

рассылку по вашей базе клиентов, проходящих в определённом месте. Более того, они все давно сотрудничают с операторами наружной рекламы, и трекают, что вы проезжали/проходили мимо конкретного рекламного щита, и таким образом считают CPM, и всё это видно у них в личном кабинете.
Ничего поделать с этим нельзя, просто знать и жить дальше.

2. Не совсем понятно, зачем в начале статьи очень многообещающее начало про телефонных спамеров, и причём тут яндекс, если эта тема не раскрыта совсем. Мне тоже бывает по 10 спам звонков в день идут, и здесь виноваты обычно банки, которые продают номер партнёрам, да и сами постоянно названивают с предложением кредита. Яндекс то тут причём и БКИ? Из БКИ пока никто не звонил :)

p.s. rainbow таблицами люди уже как лет 10 не пользуются.

denisshabr 11 сен 2020 в 17:41

Не целиком комментарий отправился.

1. Данные о перемещаниях продают все, у кого они есть. Сотовые операторы тоже на каждой конференции это рекламируют например, и предлагают делать смс рассылку по вашей базе клиентов, проходящих в определённом месте. Более того, они все давно сотрудничают с операторами наружной рекламы, и трекают, что вы проезжали/проходили мимо конкретного рекламного щита, и таким образом считают CPM, и всё это видно у них в личном кабинете.
Ничего поделать с этим нельзя, просто знать и жить дальше.

2. Не совсем понятно, зачем в начале статьи очень многообещающее начало про телефонных спамеров, и причём тут яндекс, если эта тема не раскрыта совсем. Мне тоже бывает по 10 спам звонков в день идут, и здесь виноваты обычно банки, которые продают номер партнёрам, да и сами постоянно названивают с предложением кредита. Яндекс то тут причём и БКИ? Из БКИ пока никто не звонил :)

p.s. rainbow таблицами люди уже как лет 10 не пользуются.

Sly_tom_cat 14 сен 2020 в 10:56

Совершенно не понял зачем яндексу взламывать хеши.

У яндекса есть телефон в открытом виде. Он получил хеш этого номера и знает ка этот хеш был сформирован. Что мешает просто сформировать от своего открытого представления хеш и сравнить их?

Вот если ко-то со стороны получит эти хеши — то да тут встает задача именно взлома хешей.

support_alteros 15 сен 2020 в 12:44

Занимательная статья! Спасибо.

gregoryawesoman 18 сен 2020 в 22:26

ailpein, к слову о Яндексе — проект прикрыли без объяснения причин) видимо осознали.
rb.ru/news/yandex-scoring
может стоит добавить апдейт в пост?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

Расследование: как обезличенные данные становятся персональными и продаются на сторону

Комментарии 74

Публикации

Истории