Pull to refresh

Comments 178

UFO just landed and posted this here
В том-то и дело, что .onion-сайты, по заверению автора, исключены из статистики.
UFO just landed and posted this here
С точки зрения «банить или нет» TOR узлы на своих серверах — вполне. С точки зрения «зачем используют TOR как прокси-сервер» — тоже.

Понятно, что всякие хивики и прочие ресурсы сильно изменяют расстановку сил, но для «белоинтернетной прокси» всё равно смысл имеют.
.onion-ресурсы — это 3.4% трафика в сети Tor www.dailydot.com/politics/tor-dark-net-study-size/ Ну то есть даже если бы все хидден сервисы были созданы страшными педофилами и наркоманами, то это было бы всего 3.4% от трафика, в реальности конечно еще меньше.
Спасибо, обновил пост.
Извиняюсь за прямоту, но мне казалось, что ДП будет не меньше, чем обычной. Не, ну меньше должно быть, конечно, но тут даже одного процента нет! :/
Если совсем цинично рассуждать, то количество порнографии (за вычетом легального давления и сложности изготовления) должно быть примерно пропорционально количеству заинтересованных людей. Очевидно, что созерцать сисястых тёть желающих больше, чем разглядывать вкусные плоские сундуки.
Хох! Прям в лоб!) Да, это многое объясняет, однако мне слабо верится, что обвислые пятидолларовые шлюхи с автозаправки могут быть желанны. То же относится и к огромным буферам, от которых даже я смущаюсь) Как-то даже не знаю… Все хорошо в меру. О вкусах не спорят конечно, однако да, 80% — это именно вышеперечисленнное. Я вдруг как-то почувствовал себя не в своей тарелке :/

P. S. «Вкусные» Вы специально употребили, или по Фрейду вышло?)
P. P. S. Еще на заре (моей), лет 10 назад, в инете при некоторых навыках запросто находили именно штоб прям вообще! Не залежи, но достаточно. Сейчас я как-то этим делом не занимаюсь, однако возможно многое изменилось.
Поправочка, далеко не вся порнография — это пятидолларовые шлюхи. Вот, например, картинка, по которой я позу рисовал (ладно, той не нашёл, нашёл эту): i1.cdn2b.image.pornhub.phncdn.com/m=e-yaaGqaa/pics/albums/003/279/741/53590811/original_53590811.jpg (NSFW).

И лично мне не кажется, что это «дешёвая пятидолларовая шлюха». Это отличная фотография, сделанная талантливым фотографом, и показывающая довольно экспрессивную и выразительную позу.

А целлюлит можно и проигнорировать.
Ну да, соглашусь, поза не плоха, но целлюлит — это как раз именно то, о чем я и говорил(
P. S. «Вкусные» Вы специально употребили, или по Фрейду вышло?)
А как бы вы перевели «delicious»? (ссылка, возможно, NSFW, зависит от вашей W)
Что может быть интересного в голых детях? А в ЦП, я думаю, как раз именно дети, ибо большой разницы между голой 16тилетней девушкой и 18тилетней (т.е. совершеннолетней) сильно быть не должно, но при этом снимать в порно 18тилетних проще, так как законнее.

Отсюда можно вполне логично сделать вывод, что ЦП это удел подавляющего меньшинства.
Из-за сильной незаконности.
К примеру на панде 78 тысяч галерей с тегом лоли, из 360 тысяч — это 22%, я бы не назвал это «подавляющим меньшинством».
selection bias — просто повышенная концентрация.
На dmm или r18 в фильмах эта категория тоже более популярна, чем к примеру тот же бдсм.
У всей страны повышена концентрация?
Моя гипотеза, что это selection bias по местам, где можно. То есть где разрешают — тут же «набегают» потому что в других местах нельзя.

Собственно, аналогично с любыми другими специфичными и не всюду разрешёнными видео. Разрешит dmm выкладывать смурф или hurtcore — будет повышенная концентрация смурфа. Вовсе не потому, что так много любителей, а потому что в других местах нельзя.
Ну так по законам их страны это можно продавать в любых местах. И продают исключительно местное и для местных.
Если есть спрос и это законно — то в этом же объеме будет и предложение.
en.wikipedia.org/wiki/Hokuto_Corporation#DMM
А что там скрывается под этим лоли? Не анимешные девочки случаем?
Они самые, "панда" ("открытый" брат без лоликона) как раз для рисованной (или косплея по мотивам) японской (в основном, но не только) продукции «взрослой» (опять же, в основном) направленности
Считать или нет рисованное порно ЦП это вопрос достаточно сложный. На мой взгляд это совсем не ЦП.
Насколько я знаю мотивы потребителей — нежелание видеть обвислые дойки, целлюлитные бедра и отверстия, в которые можно засунуть голову (не шутка, видел и такое))) ). А учитывая, что с возрастом и при регулярном воздействии все это (именно все) увеличивается в размерах — это вполне возможно. Ну и не забывайте, что на самом деле действительно известных и действительно потрясно выглядящих звезд ХХХ (взрослой) не так и много. Да что говорить, даже подрабатывающих таким образом студенток не так много на самом деле. Если уж совсем цинично — то дети лишены всех этих недостатков.
Осталось понять, почему большинство трафика на порносайты идёт именно за таким.
Это не ко мне. Я располагаю только протоколами допросов данной группы лиц (школьный друг в органах). Так что минус можете забрать)
Минус не ставил, но позвольте: каким именно законным способом вы получили эти протоколы?
Эммм… Россия + школьный друг в органах же, как я и писал.
Не в обиду вам, но это — незаконный способ. Вы, может быть, и не сделаете ничего предосудительного и собираете эту информацию чисто из интереса, но факт остается фактом.
На самом деле это не конфиденциальная информация. Это уж я так сказал протоколы. Скорее это разговоры из разряда «Вот же-ш сколько пид#расов нонче развелоось!» за чашечкой чая в кафе. Это все-равно, что если бы я говорил о том, что, мол, дескать, времена пошли, зеленые юнцы пользуют jQuery, а вот мы, помнится, все это на нативном JS". Так что это что-то сродни клинической картины, составленной из различных источников.
А непосредственно оригиналы хранятся в архивах и обнародуются исключительно в интересах следствия. И да, там часто хранится инфа совсем иного рода.

Но однако Ваше мнение уважать закон несомненно заслуживает похвалы! ;)
Вы бы, Антон, не хвастались вот так публично нарушением закона.
О, кстати, вопрос немного не в тему… Давно хотел спросить у кого-то, Вы мне напомнили. Вы случайно не знаете, зачем нужна карма на Хабре, если она не работает? Если для саморегулирования сообщества — дак она не накладывает никаких ограничений даже если она отрицательная. Только писькомерство? Просто часто вижу какие разборки устраивают публично за нее…
Вроде бы, влияет на возможности комментировать и вставлять картинки в посты.
А, да там вроде 1 раз в 5 минут можно комментить, если уж совсем все плохо. Я просто на Гиктаймсе вообще отхабрен (вздумал учить взрослого мужика, а ему по самолюбию это так ударило, что он пытался меня слить, но так как никто его в этом деле не поддержал, то только от него минусцов и получил), дак вот отхабрился, и даже не понял чем это чревато, как писал так и пишу) Думаю надо бы хоть спросить у кого-то…
Да, благодарю, уже читаю) Ну как-то не знаю… Вот я и говорю: ну можно оставлять 1 коммент в час, в день, в неделю (если минус больше сотни), хоть и без тегов, но неужели это повод вскрываться в ванной? Да и тогда зачем ее и вовсе таким образом «регулировать»? И почему многих это так сильно задевает? Или ею меряются когда меряться больше нечем? О, тогда конечно. Не, серьезно.
Чтобы люди, которые пишут интересные статьи имели возможность троллить в комментах не обращая внимания на карму и рейтинги. А люди без статей испытывали бы опасения и сомнения.
Ну люди испытывают сомнения ровно настолько, насколько они сами их себе навивают. Еще бы, если частенько можно напороться на разборку из разряда «Че вы меня подло сливаете без объяснений?». Сам таким грешил давно, не буду греха таить, а потом понял, что карма по сути не работает и забил на нее вовсе. Дак вот видя такие разборки естесственно человек будет бояться, но нет нужды говорить, что эти страхи страхи надуманны им самим.
Карма отлично работает. Люди, которые статьи не пишут, страдают и думают над каждым комментарием. Люди, которые статьи пишут — просто об этом не парятся, ибо их «слить» практически невозможно.

Хотя невозможность человека без статей в карму плюсануть — да, чуть-чуть огорчила, ибо иногда комментарий к статье окупает все усилия по её написанию (например, чуть выше про SNI).
И я все еще в упор не вижу смысла «страдать и думать над каждым комментарием». Зачем, если слив не дает ощутимых ограничений? Ограничение дает бан. Это дааа… А тут как оставлял комменты, так и оставляешь… Значит я делаю вывод, что этот страх надуман.
Не, ну может юзерам и хочется иметь рычаги для саморегулирования данного сообщества, типа ощущение хоть какой-то власти, однако к сожалению в нынешнем понимании это просто плацебо, ибо см. выше по рекурсии ^^^
Один комментарий в день не очень удобно (а реально получается один в два дня). В одном топике пошутил, открыл другой и вроде есть что написать умное полезное по делу, а уже не можешь.

Лично я считаю, что в нынешней реализации от кармы больше вреда, но создатели считают по-другому. Желающие заминусовать всегда найдутся, чтобы ты не писал, а плюсовать нельзя (и желающих меньше). Поэтому постепенным слив всем не писателям обеспечен.
Могу подсказать простой конструктивный метод решить проблему. Пишите статьи.
Дак ведь о том-то и речь, что карма как таковая не работает, следовательно и это не имеет смысла. Ибо просто незачем как-бы. Не, я пишу конечно, но только потому что хочется. Иначе это уже принудиловка. Хотя у меня их всего две, времени свободного мало) Только будь хоть у меня карма -1000 — времени на статьи от этого больше не появиться. А хотелось бы)
Вы мне еще фильмы снимать и стихи сочинять посоветуйте…

Если Хабр задумывался как союз писателей, тогда ок.
Хабре задумывался как клуб читателей, так что всех пишущих надо выгнать.
Вот-вот, реально получается один в два дня) Я и вовсе захожу суда только когда мне Хабр рассылку свою на почту кидает, и если в ней я нахожу что-то интересное для себя.

Баааа, да Вы прям мои мысли прочитали! Глас угнетенных, блин!) Вообще, люди существа стадные и очень внушаемые. Зачем такое заложено лично мне точно не известно, однако само наличие этого очень просто проверяется на практике. Далеко ходить не надо, внимательно прочитать тот же мануал к Хабру и оставлять комменты, нарушающие пункты этого мануала. Мы получим незамедлительный слив просто потому, что большинство пользователей неплохо начитаны сих мануалов и для них поведение такого рода — явный признак нарушения пунктов этого мануала. Но самое интересное тут то, что это им самим кажется, что произошло нарушение, на самом деле их понимание этого продиктовано исключительно составителями этого мануала, то есть их якобы собственное мнение на самом деле является мнением создателей Хабра, ибо это авторитет, и его мнение имеет вес в обществе. Именно так появились Крестовые походы, фашизм, доносы в 30-е гг. и т. п. Но суть одна.

Около 10% из всех людей не подчиняются этой системе, но это очень мало. Очень…
Или вот, например. Сейчас каждый мой коммент получает минус и я уже отхабрен. Судя по тому, что минусуется мой каждый коммент, а не один собирает кучу минусов — это дело рук одного человека. Но речь не об этом, у нас тут не сыскное бюро. Казалось бы, почему? Может я туплю, или задаю глупые вопросы? Судя по всему, нет. Все дело в том, что я высказываю мнение, которое отличается от мнения большинства. Конечно, многие имеют свое мнение, только боятся его высказывать, ибо в таком случае они будут исключены из сообщества. Такие люди неудобны, ведь общество привыкло быть одинаковым, где все имеют одну общую парадигму, продиктованную тем, кто выше их, и не имеют воли убежать от нее. И пытаются под одну гребенку привести несогласных. Например, мне часто говорят, что сообщество со мной не согласно, но стоит заметить, что у нас свободная страна (пока), в которой каждый имеет право иметь, а главное высказывать свое собственное мнение, которое может отличаться от мнения окружающего сообщества. У нас же такие люди просто сливаются. Потому что как правило в словах тех, кто с этим не согласен окружающие видят себя далеко не с лучшей стороны, и им это не нравится. Но от правды не уйдешь. Личностью нужно быть, а не за большинством идти…
Я вам объясню, но только один раз, из надежды на то, что это вам поможет приносить пользу хабра-сообществу. Без всяких экивок и менторства. Это метаразговор, и он не имеет отношения к посту, так что его здесь не должно быть вообще.

У профессионалов практически на всех ресурсах есть один и тот же набор правил. Если вы откроете правила Хабрахабра или Stack Overflow, вы найдёте очень много общего.

Вы ведь знаете, что такое энтропия и избыточность информации? Когда кто-то приходит по ссылке из поисковика или своей новостной ленты за какой-то информацией вроде статистики использования Tor, он ожидает увидеть там именно её. Более того, он ожидает, что из комментариев он сможет почерпнуть для себя ещё немало полезной информации. К сожалению, комментарии с метаобсуждениями вроде ваших сильно разбавляют этот поток информации, и делают страницу менее привлекательной для человека, который пришёл за данными. Именно поэтому вы получаете минусы.

Время, которое требуется вам, чтобы максимально уплотнить ваши комментарии по количеству релевантной оригинальному посту информации, не сравнимо с временем, которое будет затрачено читателями, чтобы ваши комментарии прочесть и пропустить. Оставляя комментарий, полезно думать, что читатели — крайне занятые люди, и что вы уважаете их и бережёте их время.

Минусы на Хабрахабре нередко используется неправильно, в этом вы правы. Минус должен означать «этот комментарий деструктивен/недостаточно объективен», а на деле кнопку нажимают просто тогда, когда с комментарием не согласны. К счастью, большая часть аудитории адекватна, и многие ставят плюс только для того, чтобы оправдать нелегально заминусованные комментарии. Так что минусы всё равно неплохо коррелируют с низким качеством комментариев, и помогают вам задуматься.

Очень надеюсь, что смог вам помочь. Спасибо за внимание.
Благодарю за информацию, очень познавательно!

Однако Вы, мой дорогой коллега, лукавите) Возьмите любую тему на том же Хабре, которая собирает много комментариев, и Вы заметите, что резкое отхождение от темы начинается уже с первых комментариев. Да что там говорить, возьмите эту же тему. Думаете пользователи для этого приходят из интернетов на эту статью о Торе, чтобы почитать комменты о детской порнографии и посмотреть фотки детей? Хотя заметте, эту тему начал не я, я ее просто поддержал, уж коли пошла такая драка)

А вообще, мне недавно пришла отличная на мой взгляд идея: в форме добавления комментов нужно бы ввести галочку «Совет», «Предложение» или что-то на подобии этого. Все комменты с этой галочкой автоматически будут висеть вверху, чтобы с их пользой могли ознакомиться те, кому это действительно нужно. Ну а попал ли коммент в полезные не напрасно — тут бы как раз очень бы и помогла бы карма. Типа люто заминусовали и юзер понял, что его предложение было не к месту. А комменты с трепом и разговорами кто и сколько раз в день мастурбирует и им подобные сортировались бы под ними.

О! Надо бы разрабам предложить)
Думаете пользователи для этого приходят из интернетов на эту статью о Торе
Антон, Вы не правы. У меня эта тема добавлена в трекер именно в надежде прийти и почитать комментарии о Tor'е, ибо именно его тематика мне интересна много лет, а вот обсуждение в контексте Tor'а порнографии меня совсем не привлекает.
резкое отхождение от темы начинается уже с первых комментариев
Если бы в данной теме Вы начали обсуждение tortunnel, то это тоже было «резким отхождением», но отхождением, скажем так, близким по духу, а превращение темы Tor'а в тему «детское порно», как и участие в этом обсуждении — это просто неуважение к автору поста.
Я понимаю, что всегда виноват как правило тот, кто просто попался, а не организаторы, однако в свою защиту могу еще раз повторить, что отхождения такого рода — совершенно обычная ситуация на Хабре, и поддержав ее я никак не думал проявить какое-либо неуважение к автору и его труду, просто скорее всего так получилось, что я просто здесь уж что-то черезчур разактивничался, поэтому это вполне объясняет то, что тут никого никогда не журят за такие отхождения, а я вдруг хлебнул за всех. Вот именно поэтому и приходиться сидеть тихо и не высовываться. И поэтому мы, кстати, так и живем. Но это уже другой разговор, не искушайте меня его начать, я хочу просто тихонечко собраться и уйти)

Всего Вам хорошего, приятно было пообщаться! ;)
Ну я не особый знаток порно, но такого, о чем Вы рассказываете особо не видел, потому смею предположить, что все же с достаточно симпатичными совершеннолетними порноактрисами особо больших проблем нет.
Да что говорить, даже подрабатывающих таким образом студенток не так много на самом деле.

На том же порхабе самые популярные разделы с legal teen и amateurs, где в большинстве роликов студентки изображают любителей.
Честно скажу, со студентками я погорячился) При некоторой сноровке можно встретить более-менее смотрябельных особей, это да)
Если бы мне встретился хотя бы один нелегальный интернет-магазин, я бы его выделил в отдельную категорию. Да, написал неясно, сейчас подпишу.
Детская порнография? Серьезно? Что-то я не припомню в открытом интернете детской порнографии. Или вы рисованую порнографию подгоняете под детскую?
А если включить в выборку onion-сайты? Очевидно, что в TOR сайтов с CP больше, чем в открытом интернете.
Расскажите, как мне включить .onion-сайты в выборку? В моём представлении трафик остаётся скрытым до момента, пока один из router'ов не разворачивает последний уровень шифрования и не обнаруживает, что это запрос к его hidden-site'у. До этого момента никто не может классифицировать трафик (это обычное перекладывание «белоинтернетного» трафика или onion-трафик), ни, тем паче, узнать адрес onion-сайта, на который идёт обращение.
В таком случае никак, да. Извините за глупый вопрос, я не слишком специалист в этом деле.
На мой взгляд, заголовок поста не отражает сути, правильнее было бы «на какие сайты открытого интернета ходят через TOR» или как-то так.
«Сортировка по категориям случайной выборки 300 url из 3.7 миллионов, собранных с помощью tshark на нескольких exit-nodes TOR»? Заголовок получится более точный, хотя на ваш вопрос всё равно ответа не содержит.
Вы даже не представляете как ее много, если уметь искать (не палюсь, ибо не моя область, просто показывали нужные люди).
Именно порно, не эротика? Эротику относительно легко найти, и она в шаткой законодательной области находится. Из самых известных мест, пожалуй, запароленные галереи на imgsrc.ru. Но если порно, то фиг знает, мне кажется, что в открытом интернете такого уже либо почти, либо совсем не найти, все по скрытосетям ушли.
Именно порно. Извините за тривиальные кейворды, но тот же гугль по запросу 'nude girl' показывает не только совершеннолетних и не только одетых.

Я недавно искал себе образцы контрапоста для рисования с раздетыми телами (так, чтобы целиком руки-ноги тело в кадре было), так там такое… особенно на галерейных дорвеях, там с разрешением 500х на сколько-то (в моём детстве такое за хайрез шло) вообще откровенное CP, даже не JB.
Они занимались сексом? Им точно не было 18?
Тогда это эротика, а не порно.

Вообще возраст на взгляд сложно определить, например сколько по-вашему лет девочке на этой фотографии на момент съемок?
image
Эммм… Ну лет 50. Они все просто как замороженные реально!))) А если серьезно, то около 7, да?
19.5 ей было на момент съемок, в июне 20 будет.
Макияж + игра + фигура, всего делов.
Да ладна!) Вот же ш! Так и думал, что жестко ошибусь!) А что, вполне закономерно! Пикча вот хорошая валяется у меня:

))) Ну как-то не знаю… На видосе она, да? Ну дак она и выглядит на 20. Именно когда нормально выглядят в 20, а не бабенки как моя мамка) Только разве что пищит для антуражу, но моложе это ее все-равно не делает…

P. S. Прям не ссылка, а название жесткого испанского порно :D
А вообще пруф этому имеется? Я много видел несоответствий возрастам, но здесь как-то уж очень фейково…
Ого! Благодарю. Вопросов больше не имею)
Набирать боюсь, а-то кто их знает!) У меня-то уже VPN давно стоит. TunnelBear, отличная вещь — одна кнопка, кучи стран, скорость вообще не режит (для серфа), одно «но» — 5 баксов в месяц. Но мне для работы надо, так что мне айс.
Из тора тоже почти все выкурили сразу после силкроада.
Немного касался уже этой темы тут, выше… Как сейчас дела обстоят честно сказать не интересовался (ну знаете ли-с, скоро вообще будет в инет без Тора не выйти, а тут такое), в общем лет 10 назад при некоторых навыках с поцонами находили штоб прям ващще порно! Аж штоб в краску прям вгоняло даже нас, хоть и не в парнике росли) Не по картинкам в Гугле, конечно, но суть была такова: на каких-нибудь не очень посещаемых форумах, досках объявлений и имиджбордах (это что-то типа ранних аналогов форумов вроде) создавались примерно однотипные темы, типа как нонче обстоят дела в рок-музыке (формулировки к сожалению не помню), в ответ к ней оставлялись просто тонны сообщений с сылками на бесплатные файлобменники с готовыми к использованию (хм) файлами под паролями. Пароли указывались там же, или где-то в другом месте. Реже покупались. Разумеется буквально через несколько дней такой лютый треш подчищался, файлы удалялись и все повторялось снова. Какова суть таких манипуляция мне не известно, однако ощутимых проблем помниться не возникало. Не знаю, можно ли назвать это свободным доступом, однако это был самый что ни на есть инет… В кратце так)
Есть такое, есть
Помнится, имеется где-то на каком-то японском хостинге одна BBS, как раз под это дело — архивы нашинкованы и раскиданы по различным файлообменникам (тоже в основном по японским), а пароли рядом лежат. Так что искать надо просто уметь.
Прочитал ник как «milfa», задумался, потом понял что пора ложиться спать.
«Enough internet for today...»? :)
Скажите, а как вы реагируете на абузы? Например придет вам абуза, что с вашего ip спам шлют или там пасворды подбирают на форум какой… И вобще какие абузы прихяд на tor exit node обычно. Поделитесь опытом пожалуйста
Автор же во втором абзаце пишет: «За это время я не получил ни одного abuse report'а»
Во втором абзаце автор пишет, что не получал абуз ни разу пока.
да ну видел я, просто автор написал еще, что работатет в хостинговой компании и видимо предпологает что могут прислать
Как буду реагировать? Ну, поскольку я плохо могу модерировать происходящее, то буду просто закрывать iptables доступ к «пожаловавшимся» ресурсам, плюс внесение в reject для exit_policy.

То есть принцип простой: пожаловались, говорю: «больше не будет» — и больше на эти узлы точно не будет.
А, да, ещё: smtp спама от меня быть не может, потому что я smtp наружу закрыл и открывать не собираюсь. Будут жалобы на http-спам — буду реагировать точечно.
Тут проблема еще вот в чем — тор судя по всему чуть ли не каждый второй запрос пускает через новый IP. Из за этого например VK постоянно не может понять, почему я прыгаю по странам туда сюда.
Так что если кто то будет рассылать спам используя тор, то из 10000 сообщений, через лично ваш айпи может пройти например всего десяток. Исправьте если неправильно понял, возможно EXIT нод мало и он их просто перебирает, например десяток, но скорее всего когда видят, как с тора идет спам, никто абузы писать не будет на такой адрес, т.к. таких адресов еще сотня-две будет. И они постоянно будут меняться. При этом клиенты которые также сидят через тор могут еще больше пострадать, если все ноды будут в черных списках.
«простые запросы простых пользователей» — это наверно на 90% компании, занимающиеся web crawling и экономящие на проксях. есть парочку знакомых
Когда я глазками смотрел, там вполне себе живые люди были с куками к vk и паролями на всякие магазинчики.
Когда мне будут говорить, что ТОР что-то там защищает и не позволяет следить за пользователем — буду давать ссылку на эту статью.
Могу ошибаться, но никто не говорил, что Exit-Node все такие безопасные.
Даже как раз наоборот пишут, что если сайт не https, то админ Exit-Node видит весь трафик.
Если вы приватные данные внутри http не передаёте, то они видны всем по ходу дела — каждый администратор каждого хопа в traceroute (и плюс узлы без следов в traceroute типа MPLS) может смотреть ваш трафик. Даже ваш сосед по wifi может его же смотреть.

TOR защищает от определения «кто это был», а не от перехвата трафика. Если вы лично в куке не пишете, мол, я юзверь вконтакта такой-то такой-то, телефон такой-то, номер паспорта такой-то, выдан таким-то отделением милиции такого-то числа, то я это определить (без вашей помощи) никак не смогу.
TOR защищает от определения «кто это был», а не от перехвата трафика.
Т.е. использовать TOR для торрентов в странах, в которых копирасты, а вернее, их адвокаты, за эти самые торренты успешно карают — вполне себе безопасно, и вас не отследят по вашим раздачам?
Торрент, вроде бы, передает свой IP в траффике? То есть, будет «мы не знаем, кто отправил этот траффик, но в нем написано, что он от того-то».
Я не уверен, что bittorent работает через TOR (надо проверять). Если работает — то простейшие манипуляции с изоляцией torrent'а от реального IP (network namespaces в linux, специфичные настройки биндинга на серых адресах в torrent-клиенте, просто изолированная виртуалка в конце-концов) сделают disclose бесполезным. Ну да, IP'шник 192.168.0.2 нарушает авторские права. Срочно покарать.
Такой блог действительно существует, однако.
Если вы в запросе к трекеру передаёте свой user id, а публичном профиле на трекере слинковались с фейсбучком, который ваше положение знает с точностью до номера унитаза в туалете, то да, найдут покарают.

Если вы держите морду лица и никакой disclose информации не передаёте (вроде запросов за like'ами на странице, специфичного user-agent, кук мониторящих сайтов и т.д.) — то в общем случае нет возможности связать исходящий с exit-node трафик и конкретного IP, с которого этот запрос был отправлен.
Возможность есть, если использовать СОРМ-подобные системы. Провайдер меняет размер пакетов, чтобы потом найти корреляцию размеров на exit-нодах, которые непосредственно контролируются отдельными агентствами или тоже находятся под контролем СОРМ.

С Tor со всей компанией добиться хотя бы псевдонимности (про анонимность даже речи не идёт) обычному пользователю практически нельзя. Для этого нужно хотя бы прочесть все мануалы и следить за новостями из первых уст, не дожидаясь их репоста на Хабре. Это тяжело.
На exit-node не будет пакетов. Тайминги задержек — может быть, размер пакетов — это сетевой уровень, а TOR работает на транспортном. Он так же как любая другая ОС работает с буферами TCP, и этих буферов по маршруту — не счесть. Любые фрагментации пакетов будут собраны на входе в entry-node или на выходе из exit-node.

Так что единственный метод «пометить» трафик — это играть с его latency.
А вас будут отправлять учить матчасть, потому что вы не понимаете как о от чего защищает tor. Чтобы скрыть содержимое трафика используется end to end шифрование, и в статье явно написано что в https или трафик на .onion никак посмотреть. Но и без end to end шифрования у tor есть масса применений. Об этом написано в любом общем описании tor, но люди почему-то продолжают делать какие-то выводы и что-то пытаться доказывать не прочитав даже этого.
Я-то как раз понимаю, поэтому и не использую. А «люди» ставят Тор, начитавшись популярных статей, и почему-то думают, что их это хоть как-то обезопасило.
Хоть как-то — обезопасило. Сосед по wifi больше не может видеть их трафик, зато может оператор exit-node (и все последующие). Кто из них более опасен — вопрос открытый.
Ну давайте его закроем, этот вопрос. Мои соседи по WiFi — это члены моей семьи. Они теоретически могут видеть мой трафик, но меня это не очень беспокоит. Соседи по дому мой WiFi-трафик видеть не могут, потому что WPA2+AES. Ну, возможно, оно как-то ломается, но явно не силами произвольно взятого соседа-кулхацкера. Дальше идёт кабель до домового свича. Если не подключаться непосредственно к кабелю, то соседи друг друга не видят. Вероятность подключения к кабелю, мне кажется, весьма низка. Дальше сам провайдер с каким-то количеством сотрудников, которые теоретически могут слушать трафик. Плюс СОРМ, про который все слышали, но которого никто не видел. Есть вероятность перехвата на этом этапе? Да, есть, но вряд ли высокая — у провайдера админами работают не случайные люди, едва ли туда кто-то специально устраивается именно для мониторинга трафика. Про сети более высокого уровня, я думаю, говорить нет смысла. Да, можно создать в сети узел и ждать, что через него пройдёт интересный TCP-пакет. Но ждать придётся очень долго.

Теперь берём Тор. Кто может стать exit-node? Абсолютно кто угодно. Через эту ноду гарантированно пойдёт конечный пользовательский трафик. Я могу сейчас поднять нужный софт, начать слушать проходящий через меня трафик, и никто об этом не узнает. Вы сами пишете: «Когда я глазками смотрел, там вполне себе живые люди были с куками к vk и паролями на всякие магазинчики». Почему я должен верить, что Вы не записали себе эти пароли? Какова вероятность, что среди всех выходных нод Тора есть ноды, созданные специально для перехвата паролей магазинчиков? Я бы оценил эту вероятность, извините, как стопроцентную. Это слишком лёгкий способ мониторинга трафика, чтобы им никто не пользовался.

Резюмируя — мне кажется, что при работе через Тор вероятность того, что ваш нешифрованный трафик кто-то целенаправленно перехватит, гораздо выше, чем при работе обычным образом. Объясните мне, пожалуйста, в чём я ошибаюсь.
И никогда не пользуетесь рабочим интернетом? И в кафешке/аэропорту/отеле никогда-никогда? А ведь это типовые места для кражи кук.
Простите, но то, что публичные wifi-сети прозрачны и опасны — это такая же азбучная истина как то, что опасны вложения в письмах от незнакомцев. Да, ходить через Тор, наверное, лучше, чем сидеть с голым трафиком в публичной WiFi-сети, но это нельзя считать контраргументом.

(лично я в таких случаях подключаюсь через VPN, но это к делу особо не относится)
Контр-аргументом против чего?

Ходишь по http — открыт всем желающим. И не надо рассказывать про «супернадёжного провайдера» — какой там админ в какой момент времени решит записать дамп трафика для отладки, а потом этот диск попадёт в руки первому попавшемуся — никто гарантировать не может.
UFO just landed and posted this here
Вы знаете, я вообще не хочу об этом говорить в терминах «анонимности» и «конфиденциальности». Потому что они, в общем, к делу не имеют отношения, но создают ощущение, что «всё понятно».

Тор «обеспечивает анонимность» ровно в одном месте — скрывает ваш IP. Всё, все остальные усилия по анонимности должен по-прежнему предпринимать сам юзер. Кроме этого, Тор создаёт условия для перехвата нешифрованного HTTP-трафика, причём вероятность перехвата гораздо более высока, чем при обычном подключении. Да, злоумышленник при этом не увидит вашего IP, но нафига ему IP, если у него и так все ваши куки и пароли.

Мой поинт в том, что при обычном сёрфинге (когда есть обращения к нешифрованным ресурсам, когда пользователь не работает в изолированном окружении, когда он не контролирует по white-листу все соединения со своей машины…) использовать Тор _опаснее_, чем не использовать.

Если же вы Ассанж, и Тор вам нужен чтобы подключиться с выделенного «чистого» ноутбука к одному конкретному сервису с хорошим шифрованием, то, конечно, с Тором лучше.
Какие-то люди в принципе часто путают понятия «анонимность» и «безопасность», и, как вы выразились, начитавшись популярных статей не удосуживаются пойти почитать непопулярные или хотя бы немного подумать. У меня сложлось впечатление, что вы — один из этих людей.
Строго говоря, во всей статье слово «TOR трафик» нужно заменить на «HTTP TOR трафик в сторону обычного интернета».
Вы не думали, что CP, наркоты и оружия так мало просто потому, что осталось мало идиотов, которые держат такие сайты в публичной части по http?
Грубо говоря, до вашего анализатора и долетает только трафик обычных людей с обычными нуждами.
Например, просмотр фильмов tvigle.ru может быть недоступен за бугром.
Или какой-то магазинчик продает тортики только в своей стране.
Ну или посмотреть на голых дяденек и тетенек на работе, чтобы админ не засек.
Поэтому вы собрали статистику — вы молодец.
Но делать на основе неё вывод «TOR использую вот для этого» — нельзя.
Это-то понятно. Но в контексте белорусского «запретить тор» я показал, что «в интернет» люди через тор просто ходят, а не «по предварительному сговору огранизованной группой лиц с целью духовного обогащения с применением специальных криптографических средств».
Я согласен, что tor неугоден властям за одно, а запретить его пытаются за другое.
Просто приведу аналогию.
Вот сделали вы с кредитной карточки 100 покупок: 99 — обычных, а 1 — оружие/наркота/CP.
Можно сказать «карточка используется, по большей части, для обычных покупок» и «карточка засветилась при покупке чего-то нелегального».
И вроде бы оба утверждения истинны.

Просто раз вы сами подтверждаете, что проанализировали только часть трафика, то будьте последовательны и в выводах.
Напишите что-то типа «остальная часть трафика могла содержать что угодно, мы об этом не узнаем».
Я про это написал два раза — в основном тексте и снизу. «Понятно, что мы исключаем весь шифрованный трафик (TLS, SSH), а так же весь трафик на .onion узлы. Однако, среди остального мы можем посмотреть на примерное распределение ресурсов по популярности.» — куда уж яснее?
А можно посчитать количество SSH хипов? то есть не важно куда, просто факт их общего количества по сравнению с http, и тогда будет понятно, насколько много в ТОР-е http/https трафика?
У ssh нет «хитов». Соотношение типа трафика по портам от tor-узла? Тяжело будет. Потому что как понять «exit» трафик из TOR'а в TOR идёт или просто обычное обвёртывание? Так, кстати, делают — подключаются к tor-узлам через TOR узлы, получается двойная петля, осложняющая процесс поиска (т.к. часть трафика проходит по неожиданным белым линкам).
Сори опечатка, думал https написал ssh, и дальше в каменте у меня собственно есть http/https трафика.
Можно ли посчитать https хиты, чтобы сравнить общее количество с http хитами?
Ну, исходящие порты из tor'а я попробую собрать. (Я не очень помню как в iptables по софтинке фильтровать, но почитаю на досуге и фильтр напишу). Мне syn'ы считать или байты?
Эм, а готового инструментария для анализа нет?
Так Wireshark и tshark — разные интерфейсы к одному и тому же.
tshark -Y ssl.handshake.type==1 -T fields -e ssl.handshake.extensions_server_name -i {interface}
Спасибо ещё раз! Надо будет включить и собрать статистику ещё раз. Мне, кстати, подсказали довольно разумный метод обработки top'а для исключения ботлистов.
Это не howto, это всего лишь stackexchange.

Но да, вопрос открытый, и вопросы в этом вопросе (по ссылке) крайне интересны.
А существуют данные об общем количестве exit nodes?
Насчет ВКонтакте, люди многие используют TOR что бы в играх в этой соц сети играть с нескольких страниц.

У меня 10% игроков использовали TOR. Это беспрецедентное количество. Очень интересует методы выявления TOR.
source IP в этом списке: www.dan.me.uk/tornodes.

Но, честно, не имеет смысл. Люди будут использовать обычные VPN, а простым пользователям, сидящим за TOR'ом вы жизнь попортите.

Я, кстати, когда читил в онлайновой игрушке, я просто пускал один клиент напрямую, а второй через первый попавшийся сервер с туннелем через ssh. Такого вы никогда не поймаете.
с этим бороться нужно другими методами.

По ip вычислять смурфов (дополнительные аккаунты) глупо и непрофессионально — многие могут играть с корпоративного ip, который один на всех.
Многие провайдеры предоставляют только серый IP (знаю провайдера, где на весь район, около 10.000 абонентов один IP, а белый только за деньги, то есть почти все с одного IP сидят).

Лучше сделать аналитику. В нашем проекте (100 тысяч онлайн), делалось:
Анализ запросов, кто пытается обращаться к API не через официальный флеш-клиент в VK. Делается легко — внезапно немного меняется запрос, обновляется клиент, и кто смог зайти в клиент а шлет старый запрос — явно программно.
Аналитика кликов по кнопкам ( в flash можно выяснить координаты нажатия) — простые кликеры на этом легко ловятся, количество кликов подряд (8 часов беспрерывного кликания, без пауз) — тоже простые домашние скрипты ловятся.
Ну и главное — экономическая аналитика. Если аккаунт живой, с него идут постоянные API запросы, а по развитию он нуб нубом, и ресурсы сливаются, можно за несколько дней мониторинга вычислить конечного получателя.

Собственно, вам нужно найти кто владеет черным рынком и забанить их бот-сети, чтобы они не могли ничего продавать за реал другим игрокам, это даже важнее, чем если какой-то начинающий скриптер с 5-ти аккаунтов себе строит что-то. На черном рынке крутятся реальные деньги, с которыми дружат реальные программисты, которые ваш клиент и сервер будут ковырять пока не найдут все возможные уязвимости. И в противовес этому нужно жестко рубить существование черного рынка, который финансирует эту деятельность.

Как вариант, мы в конечном счете, открыли платный API, в котором разрешили некоторые функции официально, но доступ к нему только за отдельную таксу. Так мы убрали любителей все взламывать, получили контролируемую НАМИ автоматизацию для игроков, и немного денег.

P.S. Сори что далеко от темы отошел.
многие могут играть с корпоративного ip, который один на всех.
Вот да — когда-то я жил в студенческом общежитии, так там на несколько общаг, полторы тысячи человек, был один внешний IP. Нас забанили практически везде за создание виртуалов и ботоводство :)
TOR может использоваться и используется для проведения атак на сайты


И при этом ни одного абуза? Странно.
Может быть, имеются в виду не столько сами атаки, сколько сканирование на уязвимости? Статичный сайтик из 10 HTML-страничек вряд ли будет писать абузы по запросам типа sitename.narod.ru/wp-admin/admin-ajax.php?action=revslider_show_image&img=../wp-config.php :)
Большинство таких попыток проходит незамеченными.

Ну, запросили с вашего сервера файл http://bindhahi.com/etc/passwd%00/labour-employment/ — вы абузу писать будете сразу же?
Спросили с моего домашнего сервера со статикой кучу *cgi c попыткам Shellshock — я полез писать
location ~\.cgi$ {
   return 400;
}
location ~\.php$ {
   return 400;
}


Скорее так: большинство таких попыток зачастую приходят и без тора, и поэтому если и будут замечены, то по ним абузу не пишут, а фиксят правила вебсерверов при необходимости…
У меня тоже есть exit node, первую и последнюю абузу я получил через две недели работы от чувака, которого кто-то 30 секунд подидосил зажав F5

xxx.xxx.xxx.xxx is infected and taking part in TOS attacks
The information that was in my server's error log is included after this paragraph. The server that was attacked is in Austin, Texas, USA (Central Time Zone (UTC-06:00)) The domain that was attacked is elvinsystems.com (192.254.234.31). They are attempting to bring my site down for reporting other hacking attempts. Your customer has NO right to try this. You might think of all the bandwidth this bot is using up. Because this is a DynamicIP and can change I have blocked this /29 subnet xxx.xxx.xxx.xxx/29 until I hear from you that this system has been cleaned. If I do not hear from you it will remained blocked forever. Thank You Gayle
[Thu Oct 30 11:44:52 2014] [error] [client xxx.xxx.xxx.xxx] File does not exist: /home1/windy/public_html/wp-admin
[Thu Oct 30 11:44:52 2014] [error] [client xxx.xxx.xxx.xxx] File does not exist: /home1/windy/public_html/wp-admin
[Thu Oct 30 11:44:52 2014] [error] [client xxx.xxx.xxx.xxx] File does not exist: /home1/windy/public_html/wp-admin
[Thu Oct 30 11:44:52 2014] [error] [client xxx.xxx.xxx.xxx] File does not exist: /home1/windy/public_html/wp-admin
[Thu Oct 30 11:44:52 2014] [error] [client xxx.xxx.xxx.xxx] File does not exist: /home1/windy/public_html/wp-admin
[Thu Oct 30 11:44:53 2014] [error] [client xxx.xxx.xxx.xxx] File does not exist: /home1/windy/public_html/wp-admin
[Thu Oct 30 11:44:53 2014] [error] [client xxx.xxx.xxx.xxx] File does not exist: /home1/windy/public_html/wp-admin
[Thu Oct 30 11:44:53 2014] [error] [client xxx.xxx.xxx.xxx] File does not exist: /home1/windy/public_html/wp-admin

[Thu Oct 30 11:45:24 2014] [error] [client xxx.xxx.xxx.xxx] File does not exist: /home1/windy/public_html/wp-admin
[Thu Oct 30 11:45:24 2014] [error] [client xxx.xxx.xxx.xxx] File does not exist: /home1/windy/public_html/wp-admin
[Thu Oct 30 11:45:24 2014] [error] [client xxx.xxx.xxx.xxx] File does not exist: /home1/windy/public_html/wp-admin
[Thu Oct 30 11:45:24 2014] [error] [client xxx.xxx.xxx.xxx] File does not exist: /home1/windy/public_html/wp-admin

С тех пор никто больше не писал
Есть арбузы. Это и вынуждает физические лица держать middle-ноды вместо exit-нод. Часто достаточно, чтобы кто-то очень добрый нажаловался на сканирование /phpmyadmin, и провайдер предлагает убрать exit-ноду.
Я уже написал что делать: баните в reject (а можно ещё и iptables для надёжности) всю подсеть (какую именно можно по whois посмотреть для IP'шника) — и пишете, что проблему с сканированием по данному диапазону решили раз и навсегда.
Спасибо за совет! Пришёл как-то абуз от целой ибшной лаборатории без указания целевых айпишников. Что с такими делать?
Попросите хоть какую-то информацию для расследования инцидента, меж тем посмотрите по whois их адрес отправителя и забаньте целиком все адреса с их AS'ки.
Твиглу, скорее всего, партнерку через tor накручивают, потому его много в статистике.
Это хорошие новости для Tor. Если бы 90% составлял трафик преступников, то у общества рано или поздно возникло бы желание закрыть Tor или сажать за факт использования Tor. На самом деле, так и работает анонимность по принципу толпы: чтобы спрятать запрещённую информацию преступников, её смешивают с избыточным количеством обычной информации обычных людей. Если кто-то из обычных людей вдруг решит совершить преступление, это не скажется на его трафике. Следующий логичный шаг: перестать считать их преступниками и отменить наказания за компьютерные преступления, но боюсь, что не дождёмся.
За год ни одной абузы — невероятно.
А какие Ваши действия в случае получения жалобы? Вы указали свои реальные данные провайдеру?
Да. За то, что платишь картой, не имеет смысл пытаться анонимизировать. А банки довольно придирчивы в вопросах адреса/паспорта/utility bill'а. Да и в провайдерском деле не принято выкидывать клиента после первой абузы (абузы останутся, а клиенты нет), обычно она эскалируется владельцу ресурса (чаще всего это вирусы/ботнеты/кривые настройки). Какие-то действия совершаются только в случае явного злонамеренного поведения, нереакции на предшествующие abuse'ы или явного же нарушения законодательства (например, фишинговый сайт могут приостановить по первой же абьюзе с урлом).

Больше года у меня нода на OVH, какой у них регламент реакции на абузы — не знаю.
Больше года у меня нода на OVH, какой у них регламент реакции на абузы — не знаю.
www.ovh.com/us/support/termsofservice/Special_conditions_for_dedicated_server.pdf
7.5 For security reasons, OVH can proceed with the immediate suspension (without notice) of any server on which
would be offered paid or free public proxies, such as IRC, VPN, TOR for which OVH have knowledge of misuse,
fraudulent or unlawful use
Действовали именно «without notice», сначала отключили, потом четверо суток добивался включения обратно. Выходную ноду больше у французов не держу. Даже в Беларуси сначала «предупредили»…
OR for which OVH have knowledge of misuse, fraudulent or unlawful use.

Другими словами, за год OVH не have knowledge насчёт чего-либо относящегося к misuse, fraudulent или unlawful use.
Да, безусловно, пока не будет абузы не отключат. Меня отключили в конце лета 2013, с аптаймом ноды около 2 лет. Примерно тогда же они внесли и этот пункт. Убило просто молчаливое отключение и обратная процедура включения и доказывания, что я не «дурак». Ну а «оперативность» техподдержки ОВХ сами знаете какая.
Сказать честно, не знаю. За этот год у меня ни разу не было ни одного повода к ним обратиться.
Вы не боитесь, что в случае нарушения закона через Ваш сервер Вы можете понести уголовную ответственность за то, чего не совершали?
Насколько я понимаю, в настоящий момент такой практики нет. С моего скромного понимания континентального уголовного права, для тех видов преступлений, которые могут быть сделаны через тор, требуется наличие намерения (то есть «убийства по неосторожности» произойти не может). Доказать же отсутствие намерения легко — я ничего не знаю про проходящий через мои сервера трафик. Даже статья тут писалась по трафику, который я ещё в декабре месяце собирал, то есть ретроспективно.

Моя ответственность за преступление не большая, чем у сотрудников хостинговой компании, у которой я размещаю сервер. Они не зная поставили сервер, я, не зная, предоставил доступ через него.

ЗЫ Формально сервер не мой, а я его арендую.
xakep.ru/2007/09/17/40213/
Александр Яссен, задержанный гражданин, как раз и содержал один из таких узлов. Он оказался последней отслеживаемой точкой в истории о размещении сообщения о бомбе на немецком полицейском сайте copzone.de.

Сотрудники-то тут при чем. Хостинговая компания — лицо юридическое. А, как говорили на одном из форумов МВД: юр. лицо на допрос не приведешь.
Мы про Россию? Или про европейские страны? Кстати, сервер можно смело изымать, мне не жалко.
По ссылке инцидент, случившийся в Европе. Смотрим мы применительно к России, всю жизнь в оффшоре не проживешь.

Не боитесь ли Вы, что если Ваша нода окажется последней в цепочке при совершении преступления, Вас могут привлечь в качестве свидетеля или подозреваемого по уголовному делу?
Насчёт «в оффшоре» не знаю, но через 7 лет можно подавать на гражданство. Если ещё парочка победоносных вставаний с колен — и я задумаюсь об этом варианте.

В нормальных судебных системах «привлечь в качестве свидетеля» никаким образом не смущает. Выдам с потрохами все настройки и логи (да они и сами могут изъять). Спросят как да что — расскажу.

В качестве подозреваемого — с какой стати? Любому технически подкованному эксперту очевидно, что это exit-node TOR'а.

Рассказы про подкинутый героин и доблестных героев бутылок шампанского я знаю, но для этого вовсе не нужно держать тор-ноды, достаточно просто оказаться в неудачное время на территории неудачного государства.
Давайте отбросим абстрактно-идеалистическое представление о реальности.
У органов мало технических экспертов и много работы по выполнению плана. И владельца выходной тор ноды можно затаскать по допросам или, в случае отсутствия его на территории РФ, испортить нервы ближайшим родственникам по месту постоянной прописки.
Не прогнозируете ли Вы такой сценарий развития событий?
У чьих органов? У РФ? Извините, но у меня в регистрационных данных указан город проживания Лимассол. Что сделает средней руки следователь, который почему-то понимает, что такое IP-адрес и VDS? Видимо, посмотрит на 'Cyprus, Germatogea, Lemesos' в адресе, и дальше ничего не будет.

Это если быть реалистом.
Спасибо за анализ в посте, но распишите, плиз про «Прочее» — слишком существенный кусок на диаграмме у этой категории))
Табличка в конце статьи — это оно.
Прочее (goverment, dating, instant messaging, torrents, по 1 шт каждое) — 1.3%

4 х 1,3 = 5,2
В диаграмме = 18,2
Где еще зажаты 13%? ))

И кстати интересно, что юзание торрентов так катастрофически мало. Я понимаю, что это почти извращение — использовать это через тор-сеть, но тем не менее.
И знакомства тоже подозрительно небольшой %.
Есть повод поразмышлять. Хотя выборка в 300 ресурсов — это конечно маловато.
_по 1 шт каждое_. Вместе 1.3%.

На диаграмме в «прочее» включены многие категории, которые в таблице расписаны. Диаграмма на 30 пунктов выглядела нечитаемой.
Это я понял, но вот и я спрашиваю: что именно вошло в эти 18,2%
Про 5,2 из них я понял, про еще 13 — нет.
Все категории, которые не были выписаны явно. 16 на графике, 31 в табличке.

Если вас интересуют точные данные, по ссылке есть дамп урлов с индивидуальной категоризацией по каждому.
У вас «прочее» и «интернет-магазины» одного цвета
Я вручную перекрашивал выделенные объекты, чтобы не было двух похожих красных или оранжевых. Зелёное, видимо, не заметил.
… там должен быть экстримизм, суицид, наркотики, котки, поркотики, детская порнография, оппозиционеры и прочие запрещённые вещи...

Вы так ловко использовали слово «оппозиционеры», что оно здесь читается как «террористы».
Видимо потому, что я не считаю, что котики и оппозиционеры это плохо.
Там ещё были котики! Посыпаю голову пеплом. Иронию не уловил :)
Всего было 3.7млн хитов. Вы отобрали 300 страниц (т.е. менее 0.01%), отбросили набирающий популярность SSL и строите статистику? После столь интересных постов с анализом стопки SSD-накопителей Вы меня удивляете, коллега:)

>>Возмьём все ресурсы, на домены которых было хотя бы несколько десятков обращений (например, 10)

сколько их было? И где больше площадь в Гауссовым распределении — под «куполом» вблизи среднего или под «крыльями» в периферии?
Выборка была не по популярности. По популярности было прохождение (больше нескольких хитов — проходит). Таким образом, гауссиана была трансформирована до линейного распределения (миллион хитов до vk эквивалентен нескольким десяткам до бразильского www.indeed.com.br). После этого я сделал случайную выборку с интервала за 7 дней. Какие тут доверительные интервалы я сказать не могу, увы, я не статистик, но подозреваю, что о точности ± несколько процентов можно говорить.

Конечно, я предпочёл бы строгое матетматическое обоснование для цифр выборки и допусков, но, увы, не моя стезя.

SSL не может набирать популярность, ибо после пуделя его изгоняют отовсюду, откуда можно. Про SNI в TLS я узнал из комментариев, общий объём трафика, выходящего из TOR'а по протоколам, я посчитаю, да.

URL'ы же из TLS я выковырять не могу при всём желании.
минус за SSL? ладно, бог с ним, с SSL… извините, писал с мобильника, получилось чуть резче нужного
URL из SSL не достать, факт

Представим график за те самые 7 дней: ось абсцис — домены, ось ординат — хиты, отсортировано по убыванию хитов.
Примем, что посещаемость доменов описывается неким распределением, похожим на нормальное (гауссово).
Площадь под графиком — это вообще все хиты по всем доменам.
Теперь вводим порог 10, от графика отлетел хвост справа, остальная часть никуда не делась и формы не изменила.
Вопросы:
1) какова была площадь под графиком (сколько всего хитов на домены намеряли)?
2) какова стала площадь под графиком (сколько осталось хитов в выборке)?
Сравнив (1) и (2), можно понять, сколько информации отбросили в хвосте.
Но это так, к слову.

Просто взять случайные три сотни сайтов из выборки и молотить их вручную… Смахивает на Sampled NetFlow Analysis, такой взгляд сквозь пальцы, когда свет слишком слепит. Есть шанс летящее бревно не заметить:) Я не говорю, что Ваши цифры — фуфло, нет, но согласитесь, хабр любит эээ если не точность, то инженерное обоснование. Пока Вы доказали, что трафик там не на 100% криминальный. Если это всё, то и ладно.

Если нужна категоризация, бросили бы клич: «надо категоризировать X сайтов». Может, кто и откликнулся бы из представителей индустрии, зачем же себя так истязать? Машина это должна делать.

Сколько их там всего, кстати, этих сайтов (доменов)?
(Я не минусую собеседников, которые не переходят на личности и не хамят — это кто-то мимо пробегал).

Поправка к вашему алгоритму: помимо «хвоста слева» все домены были отнормированы по значениям 0;1 — либо да, либо нет. Популярный домен будет иметь такую же единицу, как и малопопулярный, то есть за вычетом отброшенного, все домены равноправны.

По поводу аналитики:

1. На входе — 3878451 строк. Из них 3874351 валидны с точки зрения urllib.parse.
2. Среди них 87582 уникальных netloc (доменов, до первого слеша в урле).
3. Из них 51838 имеет уникальную комбинацию из двух последних доменов (example.com VS example.net). Травмирует и исключает echo.msk.ru, ну да не до него в таком масштабе.
4. Из 87582 уникальных доменов — 84883 не являются IP'шниками (обратно — 2698 — IPшники).

Если сделать морду кирпичом и сильно утрировать, то можно сказать, что примерно 50к уникальных сайтов.

Насчёт «сделать клич» — я, конечно, прошёлся по borderline'у с детской порнографией, даже тег поставил, и даже фрагменты url'ов написал — но это максимум. Делать список с последующими потенциальными обвинениями в расстановке ссылок мне совсем не хочется. Если кто-то возьмётся за исследования в нормальном научном масштабе, то им надо данные с большего числа exit node, с большим количеством анализирующих и более тщательной математикой по статистической части. Но идея у них уже есть, и техническая часть (как собирать) — да.

Как наберусь энтузиазма, сделаю отдельно выборку по доменам для TLS и по портам.
Хм… Я не получил ответ зачем пользуются тором.
А я отвечал на вопрос «для чего», а не «зачем». Для посещения примерно такого расклада ресурсов. ± сколько-то процентов.
Велик и могуч русский язык. Я понял заголовок именно так. А узнав ЧТО посещают, причина использования тора еще больше покрылась мраком.
Sign up to leave a comment.

Articles