2 February 2010

Из чего состоит мировой торрент-трафик?

Decentralized networks


Попытка оценки. Только факты.

Студент Принстона, Sauhard Sahi, провел небольшое исследование, с целью оценить, из какого рода данных состоит мировой торрент-трафик. Для этого он подключился к сети Mainline DHT, основному DHT, используемом Bitorrent, uTorrent, Transmission и др. (Azureus/Vuze использует по умолчанию иную DHT-систему, но существует плагин, позволяющий ему использовать и Mainline DHT), и получил данные и фрагменты из 1021 случайно выбранного торрента, находящегося в раздаче.

При этом, следует отметить, можно утверждать только то, что раздача данного файла находится среди активных, но нельзя сказать о масштабах ее популярности, и количестве раздающих или скачивающих. Кроме того, не проводилось полное скачивание, а получался только характерный фрагмент позволяющий сложить представление об этом файле или содержимом торрента, если торрент содержал множество файлов.
Также стоит отметить, что подключение к DHT позволило провести анализ без привязки к специфике какого-то конкретного трекера, однако, по-видимому, исключило из исследования какой-то процент торрентов и клиентов, не использующих DHT в принципе (такие есть еще?).

Проведенный анализ дал следующие результаты:
Из рассмотренной группы по типам файлов, файлы разделились следующим образом:
46% — кинофильмы и видошоу (без порно)
14% — игры и софт
14% — порно (видео и фото)
10% — музыка
1% — книги и руководства
1% — картинки
14% — не удалось классифицировать

Кинофильмы и видеошоу
В основном представлены файлами AVI, и рядом других типов, таких как RMVB (RealVideo), MPEG, raw DVD (DVD-рипы), и различные многотомные RAR-архивы с таким содержимым. Любопытно, что в этом сегменте, отчетливо виден перевес в сторону фильмов, вышедших недавно.
Из этих случайно выбранных фильмов и видео 60% были на английском языке, 8% на испанском, 7% на русском, 5% на польском, 5% на японском, 4% на китайском, 4% определить язык не удалось, 3% на французском, 1% на итальянском, другие разные языки — 2%.

Игры и софт
В этой категории не было отмечено какого-то доминирующего типа файлов. Основные типы файлов в этом сегменте были образы ISO, многотомные архивы RAR, и файлы EXE (исполняемые файлы Windows). Игры были для различных платформ, таких как XBOX360, Nintendo Wii, Windows PC. 74% игр и ПО были на английском языке, 12% на японском, 5% на испанском, 4% на китайском, 2% на польском, и по 1% на русском и французском.

Порно
В этой категории доминирующий формат также AVI, что сходно с показателями категории «Кинофильмы», однако значительно больше файлов в формате MPEG и WMV. Также большинство порновидео в торрентах представлено в виде полного файла, сэмпла 1-5 минут, и постера в JPG.
Порновидео трудно было датировать, поэтому возникло предположение, что, в отличие от тенденции, выявленной в группе «кинофильмы», где явственно выражен перекос в сторону новых фильмов, в разделе порнофильмов они более равномерно распределены по «шкале времени».
Мы нашли, что 53% порнофильмов были на английском, 16% на китайском, 15% на японском, 6% на русском, 3% на немецком, 2% на французском, 2% классифицировать не удалось, остальные языки, такие как итальянский, хинди, испанский не более 1% каждый.

Музыка
Основной, доминирующий тип файлов в этой категории MP3, но некоторые альбомы встретились в WMA, а также в виде образов ISO и в многотомных архивах RAR. Также наблюдается устойчивый перекос в сторону новинок, хотя и не столь ярко выраженный, как для кинофильмов, возможно потому, что сидеры продолжат их раздачу, даже когда раздаваемая музыка и не такая новая, поэтому эти файлы и сохраняются в DHT.
По языкам эта категория распределяется так: 78% английский, 6% русский, 4% испанский, 2% японский, 2% китайский, остальные, более редкие языки не более 1% каждый.

Книги и руководства
Книги и руководства занимают явно выраженное меньшинство. Удалось классифицировать всего 15 торрентов такого рода. 13 на английском, 1 на французском, 1 на русском. Кроме этого встретились наборы плакатов национального парка, коллекция картинок с автомобилями BMW (оба на английском) и японский комикс.

Отношения с авторскими правами
Наша последняя классификация делает попытку разобраться с тем, каков процент торрентов является нарушающим авторские права.
Мы классифицировали как не нарушающие авторские права объекты, в трех следующих категориях: находящиеся в public domain, свободно доступные из легитимных источников, или user-generated.
Исходя из этой класификации все из 476 торрентов категории «кинофильмы и видеошоу» мы нашли нарушающими авторские права. Мы нашли, что семь из 148 торрентов категории «игры и софт» выглядели как не нарушающие авторские права (в их числе два дистрибутива Linux, один аддон-пак для игры, а также бесплатный софт и бета-версии). В категории «порно» один из 145 фильмов выглядел как любительская видеосъемка, и мы отнесли его к ненарушающим авторские права. Все 98 торрентов с музыкой являлись раздачей нарушающей авторские права. Два из 15 файлов, раздававшихся как «книг и руководства» выглядели как не нарушающие права.

В итоге, авторы нашли, что примерно 10 раздач из общего числа в 1021 торрент могли считаться совершенно не нарушающими авторские права, что составляет примерно 1%.
Этот результат следует оценивать с осторожностью, так как авторы могли пропустить какие-то файлы, а также имещиеся у авторов сэмплы (по выбранной методике мы не выкачивали файл целиком) могли сложить неверное впечатление об отношениях материала с авторскими правами. Однако, из сложившихся в результате исследования данных следует сделать вывод, что на сегодняшний день сеть Bittorrent, в подавляющем большинстве случаев, используется почти исключительно для передачи незаконно копируемого контента, нарушающего авторские права создателей и владельцев.

Оригинальный текст сообщения на английском языке, опубликован в блоге Princeton's Center for Information Technology сотрудником центра, являвшимся начруком проводившего исследование студента.
Tags:DHTtorrentsторрентыисследованиеанализ
Hubs: Decentralized networks
+80
4k 15
Comments 119