Pull to refresh

Comments 107

Через блюр все равно видно адреса
Когда вставляют @#$ в матерное слово — оно тоже остаются понятным. Традиции, сэр…
> Когда вставляют @#$ в матерное слово — оно тоже остаются понятным.

Можно по-разному вставлять: т#кое слово вы поймете, а %!#$&@#$ — нет.
Почему «нет»? Там написано «хабртобр»
А мне сразу бросилось в глаза, что все пароли из списка очень быстро разбираются через перебор хэша на GPU, то есть они выглядят так, будто их ломали гибридным методом(словарь+набор правил) через взлом хэшей. При беглом осмотре не увидел ни одного пароля, который был бы не по зубам быстрому перебору hashcat, с другой стороны для онлайн атак с крайне низкой производительностью пароли были сложноваты. Если бы это был фишинг, то были бы явно невскрываемые брутом пароли в списке, но я таких не заметил, хотя конечно я и 1% паролей вручную не проверил, может они там и есть.
Думаете, что кто-нибудь обладающий паролем вида tN9m0mN7eS9iAfj8 попался бы на фишинг-страничке? :)
Есть поговорка «И на старуху бывает проруха». Из десятка миллионов утекших учеток такие 100% должны бы попадаться. Хотя бы не такой сложный, но 3 группы символов в хотя бы 10 несловарных знаков.
Я хотел намекнуть на то, что обычно качество пароля прямопропорциональна доверчивости пользователя.
Поэтому качественных паролей должно быть меньшинство в списке, но они должны быть — все люди ошибаются, а при такой огромной выборке даже малый процент ошибок опытных пользователей должен прослеживаться.
Практика, когда пароль придумывает один человек (внук), а пользуется другой (бабушка) весьма распространена.
Бабушка жалуется подругам, что пароль очень неудобно вводить и всегда жмёт галку «запомнить меня», но сменить пароль не умеет.
Сегодня бабушек во одноглазниках очень много, и очень мало кто из них там самостоятельно зарегистрировался.
Была слита БД сайта 123rf.com
Это я вычислил по паролю, который был в списке. 90% паролей у меня рандомые.
Никогда этим сайтом не пользовался, а пароль мой в слитой базе был.
Значит было много сайтов, откуда слили пароли.
я ниже написал что это скорее всего были дампы
О, спасибо мил человек. И мой пароль кажись оттудова.
А как он справляется с солеными хешами, для которых неизвестна соль?
Никак. У меня есть теория происхождения этих баз паролей. Я думаю, что утекли хэши с какого-то не связанного с почтой ресурса: торрент-треккера, развлекательного портала, сайта знакомств или соцсети. Чтобы не подсвечивать точку слива — отобрали те аккаунты, у которых пароли так же подходили к почте регистрации(такое часто случается) и выложили в сеть. Это могло быть всего-лишь доказательством факта слива, а более полная база продается за деньги. Если такая версия хоть немного верна, то полная база должна быть несколько десятков миллионо аккаунтов, а это очень крупный ресурс, которых в рунете единицы(а жертвы слива — именно русскоязычные пользователи).
Вспомнилось сразу из «Космических яиц»:

Дрист: — Какой пароль?
Роланд: — Пишите… один… два… три… четыре… пять!
Лорд Шлем: — Это самый идиотский пароль, из всех которые я когда либо слышал!
Дрист: — Прикажите сменить код на моих чемоданах!
На самом деле как минимум у яндекса раньше не было требования по длине пароля, и после его введения старые пароли вполне работали. До всей этой истории у моего яндексовского ящика (которому лет 9 уже примерно) был пятизначный пароль. И он так и работал, никто его сменить не просил.
У мейл.ру то же самое. Лет так 10 назад вообще отсутствовало ограничение по длине пароля — можно было из 1 символа составить.
А зачем вы заблюриваете текстовые скриншоты, когда есть регекспы?
Не более чем защита от дурака — базы же в открытом доступе, кому нужно, тот точно найдет.
Я намекал на то, что набрать s/\S+@/*****@/ гораздо проще, чем скриншотть, а потом фотошопить.
Потому что это красивая иллюстрация в статье, а не кусочек текста.
Ну тогда надо было уже зелёным по чёрному, и в фон положить какойнить юникод :)
image
UFO just landed and posted this here
вставлять анимированные иллюстрации к статье было бы уже чересчур :)
UFO just landed and posted this here
Данные из всех трех баз представляют собой набор пар адрес-пароль

Уже неверно. У меня утекла почта гмаил, а вместе с ней номер телефона(правда без кода страны и оператора). Телефон в качестве пароля я никогда не использую.
И в каком формате в базе хранятся телефоны?
Я не знаю в каком формате хранятся телефоны и откуда произошла утечка. Я лишь сказал что в этих списках моя почта записана вместе с телефоном, а не с паролем. Утечка могла быть у гугла, что маловероятно, либо на одном из нескольких китайских сайтов где я совершал покупки. Нигде больше эта пара(почта-телефон) не использовалась.
То есть пароля там нет? Если так, то для стороннего наблюдателя ваш телефон выглядит, как пароль, так как у базы нет никаких метаданных (это CSV с сепаратором в виде ":" и даже без имен столбцов).
Да мне без разницы на стороннего наблюдателя. Нам дали базу мыло: пароль(якобы), но увести могли и другие данные. В моем случае, кроме телефона, могли увести и номер кредитки вместе с защитным кодом…
Если включить теорию заговора, то вполне можно предположить, что затем будут нагибать яндекс, гугль и других за «нарушение» ФЗ о личных данных.
Роскомнадзор заявил, что не будут, т.к. это не относится к персональным данным.
что имеется в виду под
При этом, по мнению Роскомнадзора, ведомство не намерено осуществлять утечку паролей почтовых сервисов, так как они на относятся к персональным данным.?

и… почему теги не работают? это всё потому что я чёрный с отрицательной кармой?
Дали бы ссылку на базы что ли, чтоб честной народ мог посмотреть входимость себя в оные.
зачем замазывать, так что от этого никакого толку?
спойлер
Не рассмотрен вариант кросс-чека и ещё множество других. Например, как насчёт прослушки трафика на стороне почтовика?

В любом случае мне кажется, что правильнее было бы найти как можно больше жертв из списка (даже здесь по Хабру полно), опросить и попробовать проанализировать, каким образом могли утечь пароли. Могут найтись интересные пересечения. А выложенные базы вполне возможно были захламлены умышленно.

Очень режет по тексту это «в течениИ», исправьте пожалуйста. Когда речь идёт о времени, правильно писать «в течениЕ».
Кросс-чек с невалидными паролями? Как одна из версий возможно, но она не объясняет всех данных — ручная или даже автоматическая валидация паролей явно не проводилась для существенной части базы.

Прослушка трафика — опция безусловно, но как бы это объяснило невалидные пароли? Пустые адреса? Собирали всё подряд и не проверяли, что подходит? Но прослушка сразу четырех провайдеров почты — это довольно сильное утверждение, у меня нет никаких доказательств в подтверждение. Есть идеи, как это можно технически проверить?

А выложенные базы вполне возможно были захламлены умышленно.

Это какая-то теория заговора, попытка объяснить неподходящие под гипотезу данные злым умыслом. Довольно долго бегал по данным, не похоже чтобы кто-то специально сидел и вставлял всякую чушь: она очень разнообразная и в неплохих количествах; еще и измеряемые метрики заранее нужно было бы знать. Еще по части данных мне удалось узнать, что это валидные пароли — но они устарели (почтовые сервисы иногда выдают для них специальные ошибки).
Объясню, я пытаюсь найти место утечки собственного пароля, ящик не был заброшен, пароль сложный, вероятность вируса/кейлоггера крайне мала, т.к. никогда не ввожу пароль в Винде и вообще пользуюсь ею только на виртуалке для некоторых мелких проверок, вероятность фишинга также крайне мала, т.к. никогда не ввожу пароль руками, только через автозаполнение браузера, соответственно если бы браузер не ввёл пароль сам, то я бы сразу насторожился.

Основная рабочая версия у меня — это кросс-чек, но тогда под подозрение попадает крайне малый список достаточно серьёзных контор. Через какую из них могла произойти утечка пока ищу. Вторая рабочая версия — публичный WiFi с прослушкой.

Невалидные пароли всё-таки списываю на примешивание мусора из кучи разных баз в интернете. Но то, что в базе явно немало хорошо защищённых паролей — это не вызывает сомнений, судя по комментариям в соответствующих темах.
В определенных кругах ходят непроверенные слухи, что в этой выборке есть слитые базы ряда ресурсов, но тут, к сожалению, уже придется нетехническими средствами анализировать ситуацию.

Пока слабо себе представляю, какие я смогу предоставить доказательства, что ресурс Х был слит, кроме показаний условного Васи. Было бы здорово придумать некоторый технический метод проверки, что база определенного ресурса была слита.
Об этом я и говорил с самого начала, нужно собрать некоторое количество жертв, способных предоставить список сервисов на которых использовался такой же пароль и отстортировать сервисы по количеству пересечений, если в топе будет сильный скачок, то можно будет делать выводы.
Это же работа для настоящих хабра-детективов! :-)
Давайте начнем с меня. У меня утекла пара гмыло: телефон. Кроме гугла эта пара использовалась на нескольких китайских сайтах:
alibaba.com
aliexpress
pandawiil
dx.com
focalprice.com
Давайте продолжим с меня.
citibank.com
mail.ru
linode.com
Например, такой технический метод подойдет?
Это действительно даёт хороший список кандидатов, например, пользователь gkond писал, что
Нашел свой е-мейл в дампе. Пароль, которой рядом с ним указан автоматически сгенерировал мне сервис paygr.com, в далеком мае 2011 года.

при этом «paygr» встречается 11 раз в списке "+" gmail (доступном, например, тут). Это индикатор, что их база могла быть скомпрометирована. Но представьте, если им об этом заявить, то они скажут в ответ, что пользователи подхватили вирус и он украл эту комбинацию логин-пароль из браузера (или расскажут другую версию про фишинг или перехват трафика пользователей) и это как-то нужно опровергнуть или показать маловероятность этого сценария.
О, вот это уже выглядит солидным. Пожалуй утащу в апдейт к статье.
Не знаю насчет фишинга. Тут не все однозначно. У меня утащили пароль от почти не используемого ящика на Mail.ru. При этом у меня Linux, мозг есть и на предложения из Нигерии не откликаюсь. Почту с мейла забирает Гугл.
Никогда не было заходов на почту с других компьютеров? Заходов через публичный WI-FI? Пароль старый? В смысле, он был установлен недавно или не менялся вот уже много лет? Этот пароль больше нигде с почтой вместе не использовался?
С других машин не заходил — аккаунт был заведен, насколько я помню, одноразово ради облачного хранилища по акции. Пароль не менялся с момента установки. Вживую я туда около 7-8 месяцев назад заходил.
Нигде не регистрировались с комбинацией ящик+пароль? Мне кажется имеет место слив базы с какого-то крупного ресурса и просто отобраны сочетания почта+пароль, которые справедливы и для ресурса слива, и для почты жертвы.
С этого ящика точно нет. Пароль использовался ещё кое-где, но связать с ящиком маловероятно.
Вполне возможно что комбинировали как то данные. У меня акк на gmail был в базе, пароль там очень простой, типа qwerty, но данный пароль у меня не использовался в gmail, возможно при регистрации лет 5 назад, и то маловероятно. А использоваться такой простой пароль мог для одноразовой регистрации на каком то проходном ресурсе.
Хорошо вписывается в версию о слитой группе баз сторонних ресурсов. Про это в UPD написано.
Вот смотрите
У меня где-то валяется несколько десятков дампов взломанных сайтов… одним моим знакомым.
Если всё отфильтровать — получится точно больше 1 млн
Собраны путём вытаскивания с разных сайтов через sql-инъекций
Соответственно база скажем какого-нибудь форума. Уверен что >30% акканутов мыло: пасс будут подходить к ящикам. Еще какая-то часть к соцсетям. Еще процент к Steam
Если я отсортирую аккаунты по доменам и выложу в сеть — эти данные станут сенсацией? =)

Тут был либо фишинг, либо, более вероятно, такие же дампы
И да. Со знакомым тем не общаемся — он уже давно уехал в Британию. Жесткий диск с этими дампами я раскрошил молотком и скинул в жерло вулкана, предварительно пройдя 3 фильма. Нет у меня этих данных, короче.
Смысл поста во многом в том, чтобы проверить гипотезу — является ли выложенная база смесью разных коллекцией (или источник один) и оценить качество базы. Во многом похоже, что это подборка из кучи разных мест. Скорее всего она включает в себя дампы разных ресурсов и, в принципе, не представляющая собой никакой угрозы. Поэтому логичным был бы вопрос: кто и зачем это выложил?

Если я отсортирую аккаунты по доменам и выложу в сеть — эти данные станут сенсацией? =)

Не знаю, а это можно заранее и наверняка предсказать? (Ну кроме случая с iCloud.)
я позже ради интереса сбегаю к тому вулкану и посмотрю, вдруг там остались остатки названий сайтов
Да, еще было бы здорово попросить Гендальфа проверить пересечение утёкших баз и тех, которые канули в Ородруин вместе с Винтом Всевластья.
Пробегали говорящие мыши и сказали что было 87 632 430 байт — это только на одном из винтов. часть html, часть в md5
если представить что там куча дубликатов. возьмем треть — 22мб и пусть средняя длина мыло+пароль — 32 байта… около ляма кануло в вулкан
вечером попрошу эльфов собрать всё в кучу и отсортировать.
дальше можно будет анализировать
единственное — данные реально нескольких 2-3 летней давности, но совпадения полюбому будут
точно знаю что такие вещи скупались пачками по доллару за 100к
Возможно, потенциальная жертва догадалась о фишинговой форме и попыталась проверить наличие SQL инъекции.

Совершенно уверен, что те кто попадают на фишинговые страницы, абсолютно не знаю, что такое SQL, а уж «SQL инъекции» нее более чем звук, при чем окончание его очень знакомое и уж конечно никто ничего не проверял… А если речь все же тех кто специально ищет там SQL инъекции, то называть их потенциальными жертвами как то не правильно.
пришло вам письмо на айфон от друга с ссылкой на мылору, вкладочка открылась с Mail.ru и возникло подозрение что что-то здесь не так.
вы ему кавычку, а он вам mysql error
вы потенциальная жертва с техническими знаниями
Но если я увидел mysql error, значит моя пара логин-пароль в базу не записалась?
вообще лучше не фигарить логин-пароль в сомнительные формы
ошибка вылезет в случае если владелец совсем дебил — не обрабатывает входные данные и еще ошибки выводит =)
тут могут быть вариации:
-данные пишутся в файл
-данные экранируются и заносятся в базу
-ведется лог обращений к базе — в базу оно не попало, но в логе ваш insert into lohi values(vas'ya@mail.ru, lamer) будет светиться
> Пусть за удовлетворение одного из следующих условий пароль получает условный балл:
> пароль содержит не менее 7ми символов;
> пароль содержит хотя бы одну строчную букву;
> пароль содержит хотя бы одну прописную букву;
> пароль содержит хотя бы одну цифру;
> пароль содержит хотя бы один специальный символ.

Меня всегда этот стандарт мягко говоря… бесил. Надо не считать эти пункты, а считать энтропию на основании множества используемых символов и длинны строки. Мой пароль в gmail-е состоит из одних только словарных слов в lower case (английских), слитых в одну строку без пробела. Но он длинной более 40 символов (по сути — придуманная ничего не значащая рандомная абстрактная фраза на английском) — не думаю что он менее безопасно чем какой-нибудь «A^h2@!%», а все подобные системы, когда я пытаюсь зарегаться, говорят что это «weak password» (хорошо что хоть гугл считает нормальным образом).
UFO just landed and posted this here
xkcd.com/936/ — простое объяснение в картинках, почему вы не правы.
UFO just landed and posted this here
В моём пароле 9 слов английского языка. Даже если ограничился средним словарным запасом non native speaker-а, составляющим около 7000 слов в минимуме (так сказать базовый разговорный минимум), получается 7000^9 = 4.03*10^34 паролей.

Приведенный мной выше пример — 7 символов по 100 вариантов каждый, 100^7=1*10^14 паролей.

Так что если бы вы могли перебором сломать 7-ми символьный за 0.0001 секунду, то на перебор моего пароля по словарю у вас уйдёт 1279604484 лет при той же скорости перебора.

И это ещё не говоря о том, что native speaker может воспользоваться куда большим словарным запасом, что ещё порядков на 10 может увеличить стойкость такого пароля (тем кто не знает английского — можно и русский язык использовать).
Долго у Вас, наверное, этот код на R считал сложность)
А вообще я рад, что об этом языке на Хабре вспоминают. Красивая штука.
Позволю себе слить аккаунт и дать ссылку на tvoe.moe/threads/stealed-accounts.76/

Кто-то пришёл и оставил архив.
Мыла отдельно, пароли отдельно, отсортированы — можете проверять свои и анализировать
около 500к записей
из них mail.ru bk.ru list.ru inbox.ru >300k
около 90k яндекса

надеюсь, мыла давно невалидные
По ссылке нужно регистрироваться, нельзя куда-нибудь залить без регистрации?
ну, честно говоря, я надеялся что это хоть чуть-чуть задержит пользователя на сайте… дайте хоть немного траффика ^_^
вам сейчас куда-нибудь залью персонально
всё. разрешил гостям забирать аттачи без регистрации
Интересно было бы посмотреть на TOP надежных и очень надежных паролей по классификации PCI.
Ок, сделаю вечером, как доберусь до компьютера.
UFO just landed and posted this here
Top надежных и очень надежных паролей — это самые популярные пароли, удовлетворяющие требованиям, то есть самые простые среди «надежных». В алгоритме использовал упрощенную версию PCI без всяких там словарных проверок, поэтому шедевры в духе Qwerty1& встречаются среди «очень стойких» паролей.

Вот собственно и топ по схеме пароль и количество совпадений:

Yandex Оч надежные

1qaz!QAZ 7
9966Look_In**joy 4
Qwerty!2 3
100%DimZey7747S 2
10Q7*maid.O 2
11HarmOny% 2
11Troglodit! 2
123qweR% 2
1qazZAQ! 2
1tsAfuck! 2
230Krasa& 2
AaBb01!# 2
Bl-a-4_*-A 2
Bnm123# 2
Cbcflvby#1 2
CfIf666^ 2
CFT^&7ygv 2
f0uL#e1L9 2
free!O_0*r1de 2
ghGH56%^ 2

Yandex надежные

Nhbujyjvtnhbz212 99
Noob572 50
sZCdu6he 36
1702Alex1991 31
tyAnna11 29
R15mO5I1g23sh8P1A7pE 26
Ghfgjhobrivfnrj007 22
Qwerty1 22
SK9dbf277 20
Dkfcnm13 18
Qwerty123 18
Sorbonne2011 17
b6v5vU3fFL 16
Dimabilan515 16
IditbBpopy13 15
Masha11 14
ITechnology12 12
1986nnNN 11
6270Nypi 11
a111111B 11

Mailru Оч надежные

1qaz!QAZ 20
!QAZ1qaz 7
!QAZ2wsx 7
ZAQ!2wsx 7
!4PolskaViza$ 6
zaq1ZAQ! 4
!QAZxsw2 3
ZXC123asd! 3
121609Dd+++ 2
123qweR% 2
1qazZAQ! 2
200_LeT_tomu_NazaD! 2
234/Manturovo*31 2
25N*nata.25 2
2w3e1q*I(O 2
535xBB# 2
AaZz1956** 2
AGVD23!!sv 2
ATOSmoroz*-+14 2
AvaL2205! 2

Mailru Надежные

Hd764nW5d7E1vb1 195
12e3E456 150
Qwerty123 64
Ghbr0k73 58
Jhnjgtl12 58
F64579820f 50
Vlad7788 47
Qwer1234 42
W1408776w 40
Shock123 39
Aa123456 38
Q1w2e3r4 38
kMNopr10s 37
DeSire3302 35
0L8KCHeK 34
Tk3281022 34
123qweASD 32
m7N56xO 31
Qwerty1 31
0K1o2V3a4L5e6V7 30

Gmail оч надежных нет, есть только надежные

p@ssw0rd 507
zaq1@wsx 155
p@$$w0rd 78
@lthebest1 58
pass@123 44
abc@123 40
1qaz@wsx 36
p@55w0rd 36
password@123 35
pass@1234 32
india@123 31
password@1 31
admin@123 30
p@55word 22
p@ssword1 22
data@123 20
wipro@123 19
upps@l@3 18
abcd@1234 17
asd123@# 16
Спасибо. Я так и думал. Оказывается, очень надежные пароли могут быть ненадежными :)
p@ssw0rd это надёжный пароль??
По классификации PCI — вполне да.
Это, кстати, очень важный момент, что любая попытка заставить пользователей устанавливать только стойкие пароли — это такая игра: система устанавливает правила, а пользователи пытаются выставить самый просто запоминающийся (~= простой) пароль подходящий под эти правила. Поэтому условный «Qwerty!2» это намек, что какие бы правила не устанавливались всегда будет лазейка, чтобы их обойти.
Cbcflvby#1 забавен

А вот эти довольно странные из-за своей популярности.
Nhbujyjvtnhbz212
Jhnjgtl12
Ghbr0k73
Тригонометрия212
ортопед12
прик0л73
ну я это заметил. странно то, что тригонометрия, да еще и 212, используется в 99 случаев.

подход правда стремный. на наших-то сайтах точно, так как от словаря это не избавит.
вероятно, что это часть авторега
UFO just landed and posted this here
Во многом справедливое замечание, но разве пароли из 4х символов когда-то были валидны? Да и задача в основном состоит в том, чтобы найти аномальные пароли и понять, как они могли попасть в базу. Пароли из 300+ символов всегда вызывают подозрение, особенно когда они содержат куски HTML-кода, как и пустые пароли или из 3-4х символов.

Безусловно, мы не можем знать, когда были созданы пароли — поэтому в тексте и было написано «по современным критериям». Короткие и слабые пароли — это индикатор того, что определенные атаки могли быть ответственны за часть данных в базе.
UFO just landed and posted this here
Не, это справедливое замечание, но сложно представить, что это 5 миллионов паролей 10 летней давности от Mail.ru (у них тогда вообще было столько пользователей?) и они не менялись всё это время.
У меня в начале года ломанули mail.ru а потом сразу и угнали steam-акк. Пароль восстановил, steam-акк вернули. Как угнали mail.ru я так и не понял.
В начале рассылали спам через magent
Таким образом наиболее вероятной выглядит гипотеза, что данная выборка — компиляция различных источников (фишинг, заражение, словарно-переборные атаки, собрание популярных подборок) в течение длительного периода времени. Достаточная часть данных в принципе не является валидными паролями по формальным синтаксическим критериям, что также подтвердила экспериментальная проверка.


Однако, вопрос о том, почему публикация произошла в течении нескольких дней и чего добивались люди этой публикацией остаётся открытым… я понимаю если бы перед выходом на IPO яндекса это было бы сделано, но сейчас… может как то замести следы…
Да всё просто. У кого-то была собранная годами база. Он решил её проверить на валидность. Но, чтобы не привлекать к себе и своему IP внимание, выложил её в сеть, а разные сообщества типа Хабра её проверили. А разделение по мыло-провайдерам сделал для пущего привлечения внимания, просто так резонанс выше.
Странный способ «не привлекать внимание», да и теперь база гарантировано умерла, адреса в основном заблокированы…
Мне кажется, он догадывался, что там очень мало живых адресов. Вон, в ответе Гугла говорят, что там всего 2% валидных было. Короче, это был скорее троллинг, чем что-то серьезное.
Sign up to leave a comment.

Articles