Как стать автором
Обновить

Комментарии 36

Кажется, анализ довольно сильно перекликается с тем, что писал на Хабр примерно год назад.
спецсимволы, не имеющиеся на клавиатуре например такой: §

⌥ + 6 в латинской раскладке на OS X
Во французской раскладке тоже встречается, соответствует запятой в русской раскладке (shift + / в английской).
Для этого я вычислил ожидаемые значения столбцов 6, 8, 10, просто построив сглаженную кривую – а затем найшел разницу с реальными величинами. Итог: примерно 2 миллиона (то есть, третья часть) паролей сгенерирована искусственно.
Почему сразу искусственно? Уверен что эти значения выделяются из-за требований к минимальной длине пароля на момент регистрации.
Либо, как вариант, возникают благодаря прогресс-бару с надписью «ненадежный пароль», меняющемуся по мере добавления новых символов.
Или, могу подозревать, много паролей — даты рождений, то есть шесть символов.
То есть 6 или 8 символов, в зависимости от того полно или кратко писать год.
т.е — 010190 или 01011990 (дата 1 января 1990 г.)
Посмотрел, не подтверждается.
Если бы это было так, не было бы провалов в значениях 7 и 9. Было бы наложение таких же гладких кривых, только начинающихся со значения 6 и 8 (а значит, значения в точке 7 были бы всегда больше, чем в точке 6)
Не соглашусь. Допустим, минимальная длина пароля — 6 символов. Это значит, что очень много пользователей поставят себе именно 6-значный пароль, 7-значных будет гораздо меньше, т.е. на 7-ми будет именно провал. То же самое и с 8 символами — если стоит такое ограничение, то большая часть использует именно 8 символов, а на 9-ти будет провал.

Причем, будет не плавный спад от минимально допустимого к более длинным, а именно резкий, т.к. люди ленивы, и очень часто длина пароля просто дополняется, чтобы соответствовать требованиям системы.

Кстати, можете это проверить на 8-знаках, если интересно. Поищите 8-значные пароли, начало которых совпадает с 6-значными (и 7-значными). Проанализируйте последние символы таких паролей. Потом поищите полученные из анализа последних двух символов (для 7-значных — последнего символа) паттерны в оставшихся восьмизнаках. Если моя логика верна, то вы получите наиболее типичные символы, которыми люди добивают пароль, чтобы система его приняла (наверняка там будет 0, 1, 7 или какой-нибудь символ типа $ или @).
Оба распределения растут в течении нескольких первых символов. Если бы люди были ленивы, двухзнаковых паролей было бы намного больше, чем четырёхзнаковых, а это не так. Распределение от 1 до 6 тогда бы падало, а оно равномерно растёт.
Нет я всё понимаю, но почему пароль «lopata» такой частый мне не понять.
Для меня намного большая загадка, откуда взялись домены gmail.com777 (295 раз), gmail.com7777 (78 раз), gmail.com77777(22 раза) и так далее. Причём повторяется только цифра 7, и только с доменами gmail.
Может быть, автор базы так маркировал важные аккаунты.
По мне так размер пароля в 6, 8, 10 символов может быть вызван еще и всяческими генераторами паролей. Всяческие робоформс или тот же pwgen наверняка генерят пароли определенной длинны. pwgen например по умолчанию у меня дает те самые 8 символов.

Было бы интересно посмотреть нет ли паролей аля lopata1 lopata2 и тд. То есть когда идет какая-то явная для человека последовательность. Вот тут точно были бы боты
Да. Поэтому я и написал в выводах: «сгенерирована искусственно», но не уточнил про ботов. Увы, способа определить ботов только по паре логин-пароль не существует.
Вот тут точно были бы боты
ИМХО, боту проще сгенерировать пароль полностью случайно, взяв, например, первые 10 символов от md5(timestamp) с добавлением случайного символа из набора [@#$%^&*]. А (lopata1, lopata2, ...) больше похоже на человека, который регистрирует несколько аккаунтов вручную.
Да скорее я их имел в виду)) Ботов наверное никак. Явно не по длине пароля, это я хотел сказать.
К вопросу парсинга: (.+)@([^@:]+):(.+)

Плюс можно прямо список доменов считать разделителем.
Это пока не встретится пользователь с логином a@b:c. Хотя случаи, подпадающие под (.+)@([^@:]+):(.+)@([^@:]+):(.+) можно обработать отдельно.
Извините, что я тут влезу с оффтопиком, но наболело: жутко бесят сервисы, ограничивающие длину логина снизу (т.е. минимум 6 символов например). Пример: skype. Жутко бесит, ведь мой логин везде — 5 символов и его приходится искусственно удлинять. И я не понимаю, зачем они это делают, ведь здесь нет никаких соображений безопасности, ведь логин — вещь совершенно публичная, указанная практически везде (по крайней мере мной)
На графике с длиной логинов хорошо заметен скачок на 4-х и 6-и символах.
Тут, вероятно, та же история, что была в своё время с короткими icq-номерами — чтобы несколько разбавить ажиатаж вокруг красивых и коротких сущностей.
При статистических исследованиях очень важна корректность входных данных. К сожалению в вашей выборке данные из разных источников, которые нельзя проверить на корректность. Например, получены ли пароли напрямую (сниффер, база с незашифрованими паролями) или кто-то перебирал пароли брутфорсом. Во втором случае, в базе почти не будет случайно сгенерированных паролей длиннее 7-8 символов, но они конечно же существуют, просто взломщик не смог их подобрать.

Пока вы не уверенны в гомогенности и корректности входящих данных, просто не имеет смысла проводить их статический анализ :(
Увы, работать приходится с тем, что есть — никто не даст базу данных действующих паролей. Единственный извесный мне случай полностью корректного исследования был два года назад: Уникальное исследование базы паролей университета Карнеги-Меллон
У меня ощущение, что дампы собраны отовсюду:
1. если если искать в поисковой по фразе «gmail.com777»
закэшированы на страницы emailsherlock.com, где есть пользователи
с подобной почтой (домен gmail.com777) на разных сервисах.
2. А также всякие контакты в указаны у ботов (https://vk.com/club77756895)
видимо ошибка в коде.

Но очень интересно откуда эти логины:)
Также видно, что если для gmail более 90 процентов людей придумывают новый пароль, то для пары яндекс-мейлру наоборот – 80% паролей совпадают

Ну если у меня мейл почта восстанавливается через яндекс почту и наоборот, какой смысл второй пароль придумывать?)
Как раз наоборот, мне кажется. Если две почты завязаны друг на друга, и пароли одинаковы — то получение доступа к одной из них автоматически дает доступ к другой.
Всегда, имея пароль от одной, можно сбросить пароль на другой через восстановление пароля. Смысл второго пароля?)
Такая ваша позиция очень удобна для человека, подсмотревшего/подобравшего ваш пароль.
Пароль с этих двух почт нигде не используется и не сохраняется, откуда его можно подсмотреть?)
Как вариант — в бинокль с балкона многоэтажки напротив)
Вы забываете об одной простой вещи — защиты от персонального взлома НЕТ.
Если захотят получить данные лично к вашей почте, то получат, что бы вы не делали. Нужно быть экспертом по безопасности и параноиком, чтобы от этого защититься.
Поэтому все правила гигиены в интернете — они от массового взлома, чтобы тупые атаки не зацепили ваш аккаунт, а не от персонального.
Поэтому в случае бинокля с балкона — вы можете делать что хотите, но вас все равно хакнут.
Ппопробуйте взять статистику по тем записям, у которых расстояние Левенштейна между логином и паролем скажем меньше трех. Должно быть более показательно, чем просто полное совпадение. Еще интересно, насколько часты случаи, когда пароль имеет подстрокой логин
Посмотрим на рапределение длины логина – это равномерное распределение,

По-моему вы неправильно употребляете термин «Равномерное распределение». Посмотрите в Википедию или в любой учебник по теорверу — там под "равномерным распределением" имеется в виду совсем другое.
чего не скажешь про пароли.

Да, любопытно, что распределение длины пароля получилось бимодальным. Могу предположить, что это связано с разделением пользователей на 2 типа: те, кто не читал наставлений о том, что длина пароля должна быть не менее 8 символов, и те, кто читал.

Поэтому на 7 имеем провал — неискушенные пользователи считают, что в 7 символах нет необходимости, а искушенные — не используют 7 символов из соображений безопасности.
Зарегистрируйтесь на Хабре , чтобы оставить комментарий

Публикации

Истории