errashe Aug 26 2013 at 19:23

Поиск уязвимостей у хабросайтов

4 min

23K

Information Security*Python*

From sandbox

+31

Comments 56

Fedcomp Aug 26 2013 at 19:26

по меньшей мере странно прыгать от одного языка к другому учитывая что питон все эти вещи легко выполняет.

+28

errashe Aug 26 2013 at 19:29

Но эта же вещь легче выполняется в другом, кроме того, это была разминка для хвоста, поэтому разные языки.

briskly Aug 26 2013 at 21:34

with  open("file.txt", "w") as f:
    f.write("\n".join(list(set(usersStr.split("\n\r")))))

Легче этого??

+11

errashe Aug 26 2013 at 21:38

Ну или я не в достаточной мере дружу с питоном. Каюсь, возможно, в некоторых местах, можно было бы сделать все лучше. Буду исправляться!

taliban Aug 27 2013 at 11:51

Я бы своим за такой «лисп стайл» руки поотрывал бы =) Ну пара вложеных функций еще ладно, но 5 это уже большой перебор.

errashe Aug 27 2013 at 11:55

Буду исправляться)

ansmirnov Aug 27 2013 at 12:03

В этом же и прелесть python, разве нет?

taliban Aug 27 2013 at 18:34

Нет, такой говнокод можно на любом языке написать, от названия языка он красивей не станет, и у автора статьи хоть и длинней но код понятней и приятней.

-3

glader Sep 1 2013 at 09:16

Вполне читается. Вы излишне придирчивы.

AlexeyFrolov Aug 28 2013 at 16:35

Если в лист не оборачивать тоже будет работать, кстати.

with  open("file.txt", "w") as f:
    f.write("\n".join(set(usersStr.split("\n\r"))))

briskly Aug 29 2013 at 00:17

ждал этот комментарий, тоже заметил это после того как написал

alcanoid Aug 27 2013 at 01:04

На php, кстати, можно ещё легче, чем у вас, см. file() и implode() :)

Harrix Aug 26 2013 at 19:29

Получилась хабраверификация сайтов)

А все пользователи были проверены в итоге или есть вероятность, что у кого-то сайт был пропущен?

errashe Aug 26 2013 at 19:30

Даже больше скажу, большая часть пользователей была пропущена) Я подрегулирую эту систему, и запущу еще раз, полностью в автоматическом режиме, вот тогда будут проверены все сайты. Я надеюсь.

Harrix Aug 26 2013 at 19:46

Может выложить список проверенных сайтов? Или это чревато?

errashe Aug 26 2013 at 19:48

Чревато. Может быть кто-то не поправил еще. Давайте не будем показывать все это. Тем более, что это чьи-то ошибки, а на ошибки, как правило, указывают лично.

Harrix Aug 26 2013 at 19:53

А проверенночистые сайты? Тоже не стоит?

errashe Aug 26 2013 at 19:58

Большой список. Думаете есть смысл? Смотреть на чистые сайты. К примеру в одном из профилей был найден yandex, и я смотрел 15 минут на то, как сканировался yandex. Немного напрягло.

Harrix Aug 26 2013 at 20:01

А так непонятно просто: или ты чистый, или не проверили.

errashe Aug 26 2013 at 20:32

Как только все обновлю, все проверю, будет подробный пост с разбором уязвимостей. Надеюсь всем понравится.

RouR Aug 27 2013 at 06:59

Тогда уж просите инструкцию как самому проверить (я про скрипт для BackTrack r3), и делайте самостоятельно проверки с некоторой периодичностью.

akalend Aug 27 2013 at 11:21

Думаю стоит создать blacklist — куда надо вписать ya.ru, mail.ru, od.ru vk и прочие сайты.

Goodkat Aug 26 2013 at 19:56

А список ошибок сразу в личку скриптом кидать :)

errashe Aug 26 2013 at 20:00

Может быть. Только теперь мне нужно это все совместить в одну программу, и затем сделать вторую часть статьи.

macik_spb Aug 26 2013 at 23:24

Кстати отличная мысль. Эдакий жест доброй воли (почти) мирового масштаба. Это однозначно зачтется в карму. :)

Nicknnn Aug 26 2013 at 20:03

Пункт второй: Уникализировать

with open('habrs.txt') as in_f:
    users = in_f.readlines()

users = [ user.strip() for user in users]
users = set(users)

with open('habrs.txt', 'w') as out_f:
    for user in users:
        out_f.write(user)
        out_f.write('\n')

errashe Aug 26 2013 at 20:07

Спасибо большое. Будет использовано в общей программе.

hellman Aug 26 2013 at 20:50

Уникализировать

$ sort -u habrs.txt >habrs_uniq.txt

+18

akalend Aug 27 2013 at 11:23

я бы все урлы в redis пихнул бы
и потом проверял бы на дублирование

hellman Aug 27 2013 at 11:34

В redis есть sets и не нужно никаких проверок на дублирование делать.
Вопрос только в том, что мешает использовать те же sets в питоне?

gromozeka1980 Aug 26 2013 at 20:21

можно сразу искать сет нужного размера, а потом уже его в файл, как-нибудь так:

import urllib2, re

def going(names,users = set(),limit=None):
    for name in names:
        page = urllib2.urlopen("http://habrahabr.ru/users/%s/subscription/followers/"%name).read()
        names = set(re.findall('<div class="username"><a href="/users/(.*?)/">', page))                
        users|=names
        if len(users)>=limit:
            return users
    return going(list(names),users,limit)

all_names=going(['grokru'],limit=100)

gromozeka1980 Aug 26 2013 at 20:35

фигню написал, извиняюсь

dutchakdev Aug 26 2013 at 21:35

Вообще побольше бы статей по питону и комментариев с примерами «так делать лучше» или «так делать нельзя».

gromozeka1980 Aug 26 2013 at 21:45

вы только на мой пример не смотрите. у автора поста в программе ошибка — неправильно построенная рекурсия, а я её не подумав скопировал. обе программы будут работать, но некорректно, почём зря отбрасывая кучу веток дерева перебора, а написать нормально сейчас нет времени — завал на работе полнейший.

gromozeka1980 Aug 27 2013 at 11:36

Появилась пара свободных минут, хотел переделать рекурсию, но подумал, что можно сделать гораздо проще:

import urllib, re

def find_users(limit):
    users=set()
    for i in xrange(200000):
        page=urllib.urlopen("http://habrahabr.ru/post/%s"%i).read()
        users|=set(re.findall("http://habrahabr.ru/users/([a-zA-z0-9]+)/",page))
        if len(users)>=limit:
            return sorted(users)

gromozeka1980 Aug 27 2013 at 12:10

Хотя нет, это долго и нудно.
Вот ультимативное решение, возвращает 76 с лишним тысяч подписчиков хаба «Информационная безопасность», как раз то, что надо :)

import urllib, re

def find_users():
    users=[]
    for i in xrange(1,1537):
        url="http://habrahabr.ru/hub/infosecurity/subscribers/rating/page%s/"%i
        page=urllib.urlopen(url).read()
        users+=re.findall('<a href="/users/[a-zA-Z0-9]+/">',page)
    return users

gromozeka1980 Aug 27 2013 at 12:25

скобки забыл

users+=re.findall('<a href="/users/([a-zA-Z0-9]+)/">',page)

ibnteo Aug 26 2013 at 21:08

Теперь осталось разослать пользователям информацию о найденных уязвимостях, чтобы они её исправили.

errashe Aug 26 2013 at 21:11

Некоторым разослал, более детальная информация будет после следующего поста. С доработанной программой.

armid Aug 26 2013 at 21:33

Блин, я в проверку не успел попасть :(

Borro Aug 26 2013 at 23:17

Для php поместить каждую не пустую строчку из файла в массив:

$arr = file('example.txt', FILE_IGNORE_NEW_LINES | FILE_SKIP_EMPTY_LINES);

pomme Aug 26 2013 at 23:39

Ну ценность перебора спорная, но за наводку на nikto — большое спасибо.

-1

errashe Aug 26 2013 at 23:52

В дистрибутиве BT есть более продвинутый сканер, но наводить я на него не буду, достаточно попробовать их все, чтобы понять, для чего служит каждый.

VladimirAndreev Aug 27 2013 at 07:20

разминка для хвоста, это все понятно…
но:
1. при записи после уникализации — в php отменили implode?
2. при чистке сайтов, с какой великой целью используется метод чтения файла в строку и разбитие ее на массив, если есть функция file, которая вернет сразу массив?

-1

errashe Aug 27 2013 at 07:23

Непонятными действами занимался, я уже покаялся по этому поводу. Буду исправляться.

alz Aug 27 2013 at 08:36

1. Пишем у себя в профиле сайт конкурента
2. Ждем результатов проверки
3. ???
4. PROFIT

mishael Aug 27 2013 at 10:55

Круто вам. Только один конкурент… :)

dikkini Aug 27 2013 at 11:22

Если PROFIT -> помочь конкуренту найти уязвимости, то да :-)

ansmirnov Aug 27 2013 at 11:04

Исходя из каких побуждений был выбран обход в глубину при парсинге хабралюдей? Ведь тут без отсечений будет бесконечная рекурсия. Или правило шести рукопожатий работает и на хабре? И каким образом выбирается первый пользователь?

-1

errashe Aug 27 2013 at 11:12

Рандомно, обход был выбран не очень удачно, признаю. Я толкнул идею. Вдруг кто-то загорится? Будет продолжение с более продуманными решениями.

gromozeka1980 Aug 27 2013 at 11:37

вот здесь решение попроще:
habrahabr.ru/post/191434/#comment_6653168

-1

I3Lack_CaT Sep 1 2013 at 01:08

Было бы проще через приглашённых на сайт, но к сожалению профиль НЛО закрыт =(

NoN Aug 27 2013 at 12:34

C os.system, pidof в файл, чтение файла и внешний kill это конечно кромешно. subprocess и запустит правильно, и pid получит, и кильнуть поможет. И никаких лишних внешних вызовов, файлов и прочего.

Зачем понадобилось перед рекурсивным вызовом going отдельно получать список names, можно же передать start сразу ей:
going([start])

-1

mktums Aug 27 2013 at 12:58

Не все так просто, чтоб вы знали… На странице /users лежит не так много, как хочется, пользователей. Решено было рекурсивно идти по юзерам и брать там из подписчиков других юзеров, а там еще юзеров и еще…

Scrapy

KawaiDesu Aug 28 2013 at 00:46

5 пункт — это часом не битрикс был?

errashe Aug 28 2013 at 10:22

Не битрикс, насколько я помню.

Show the best of all time