Открыть список
Как стать автором
Обновить

Хабра-детектив: у вас картинка потерялась

HabrВизуализация данныхХранение данныхВеб-аналитикаDIY или Сделай сам


Вы когда-нибудь задумывались, сколько информации бесследно потеряно? Ведь информация — это то, ради чего Хабр существует. Знаете, что чаще всего случается с ресурсами основанными на пользовательских публикациях? Авторы вставляют изображения, картинки и видео со сторонних сайтов и через какое-то время они больше не доступны. Именно для этого когда-то был создан Habrastorage. Практика показала, что никто (кроме редакторов и нескольких энтузиастов) не загружает туда изображения самостоятельно. Потому в какой-то момент администрация Хабра сделала эту функцию автоматической — каждое изображение, которое встречается в публикации, автоматически загружается в хранилище и оттуда не пропадёт, пока существует сам Хабр. Конечно же, есть и исключения и что-то может пойти не так, но сейчас не о них.


Самая большая проблема во всей этой схеме с загрузкой изображений в Habrastorage произошла во время её внедрения. К тому моменту некоторые старые публикации уже были без рисунков, а потому такими и остались. Сегодня мы попробуем выяснить, сколько же графической информации потерял Хабр с момента своего рождения. Кроме того, может нам удастся найти что-то из пропавшего? Ведь раздражает эта заглушка "изображение не может быть загружено", не так ли? Сегодняшний детектив посвящён именно этому. Приступим!


Возможно, вас в эту статью привело упоминание в трекере? Вероятно, в одной из ваших старых публикаций пропала картинка, а я её нашел. Если вам не хочется читать всю публикацию, можно просто пролистать до спойлера в самом конце (раздел Результаты), где перечислены все публикации и найденные изображения. Спасибо!

Вступление и методы


Наш детектив начнётся с самого начала (логично, правда?). С начала Хабра. Ведь чем раньше был опубликован какой-либо пост, тем больше шансов, что изображения из него затерялись где-то в истории. Именно потому начнём мы с 2006 года и пройдём немного вперёд.


В рассмотрении участвуют все публикации из 40 хабов, которые на данный момент находятся в начале рейтинга. Полный список этих хабов представлен под спойлером. На самом деле, многие из них тогда не существовали, однако при добавлении новых хабов публикации туда переносились.



Информация собиралась с помощью набора PHP скриптов. Каждая публикация была загружена, определено содержание тега < div id="post-content-body" > и проверено наличие тегов < img > внутри. Для каждого изображения сохранены ссылки на изображения с привязкой к ID публикации на Хабре. В дальнейшем анализируется именно эта информация.


Что и когда публиковали


2006


В самом начале Хабра публикаций было не так много, как сейчас, а картинок в них — ещё меньше. Всего в 2006 году (начиная с 05.06.2006) в перечисленных хабах был опубликован 221 пост. 53 из этих постов содержат всего 75 изображений. Максимум изображений (10 штук) в публикации "Десять гаджетов, которые изменили мир". 50 рисунков уже находятся на Habrastorage. Ещё 25 потеряно. Все они уникальны и не повторяются.


Интересный факт: Два из изображений ведут на сам Хабр, но при этом недоступны уже давно. Это изображения http://www.habrahabr.ru/tmp/sup_blogs_preview.gif и http://www.habrahabr.ru/tmp/upgrade-chart.gif.

Итак, за 2006 год потеряно 33.3% изображений в публикациях.


2007


В 2007 количество публикаций существенно увеличилось, как и количество изображений — было опубликовано 1 713 постов. 599 Публикаций содержат 1 467 изображений. На Habrastorage перенесено 1 229 изображений, а 238 потеряно (16.2%).


Интересный факт: Публикация Топ 100 Mac OS приложений содержит максимум за 2007 год — 100 изображений и не содержит авторского текста.

Кроме того, часть из этих потерянных изображений повторяется. Так, одно из них встречается 6 раз в одной публикации с всего 6 картинками. Также 21 раз повторяется изображение "Up.gif", 16 — "Down.gif" и 8 — "Same.gif" с одного домена. И все эти 45 изображений из одного поста, в котором всего 47 картинок.


Остаётся 191 уникальный < img >.


2008


Поскольку год от года количество публикаций на Хабре лишь увеличивался, в 2008 наш детектив рассмотрит 2 520 публикаций, а также 2 969 изображений. Заметили, именно в 2008 количество изображений в публикациях наконец-то превышает количество публикаций. При этом всего 1 207 постов содержат картинки, а максимум в 42 элемента графической информации представлен в публикации "История праздничных логотипов Google". 1 943 изображения уже сохранены на Habrastorage, а 1 026 потеряны (34.6%).


Интересный факт: Самое неожиданное изображение (а точнее, проблема в оформлении публикации) находится здесь. В результате, Хабр пытается загрузить изображение по http://#/.


Рис. 1. Общая статистика рассмотренного


Можно ли восстановить хоть что-то?


Частичное восстановление не составляет особого труда. К примеру, самым "ленивым" способом будет использование Internet Archive в попытке загрузить сохранённые страницы публикаций. Кроме того, можно попробовать "найти" в архиве сами изображения по прямым ссылкам.


Lifehack: Проверять наличие изображений нужно во всех версиях страницы в архиве, не только самой старой и самой новой.

К сожалению, хотя этот метод и работает в части случаев, восстановить хотя бы половину картинок так сложно. Потому следующий шаг — проверка кросспостинга, оригиналов переводов и, естественно, архивных копий оригинальных страниц.


К тому же, можно попробовать найти желаемые изображения с помощью одного из неофициальных зеркал Хабра, которые когда-то работали и всё ещё хранят часть скопированной информации.


Последний и самый сложный вариант — использование поисковых систем. Если точно известно, что должно быть на изображении (есть описание и контекст), есть шанс найти файлы с таким же названием, если они когда-то кем-то были скопированы на другой ресурс.


Естественно, каждый следующий шаг увеличивает время поиска нелинейно.


Что удалось найти


Возможно, вас не сильно впечатлит количество найденных на данный момент изображений — их 300 (содержатся в 140 публикациях от 81 автора). Если учесть число "потеряшек" (1 242), то результат составляет около 24.2%. Почему пропавших изображений стало меньше, чем было? Из рассмотрения удалены все бесполезные изображения (вроде счётчиков просмотров) и несуществующие изображения (вроде уже упомянутого http://#/, а также http://fig.jpg/ и т.д.).


Как вышло такое круглое число? Дело в том, что примерно на 300 закончились сутки поисков. Вначале, я собирался дойти до 333, но и 300 выглядят вполне неплохо. К тому же, на данный момент совсем непроверенными осталось около 33% всех "жертв поиска".



Рис. 2. Текущие результаты поисков


Все найденные изображение (кроме одного .bmp, с ним было бы 301) загружены на hsto.org, а ссылки на них и публикации, а также индексы изображений в них приведены в следующем разделе.


Результаты


Итак, под спойлером приведены успешно найденные изображения, а также id публикаций, индекс рисунка внутри текста публикации (начиная с 1, не с 0) и автор публикации. Если вы — автор упомянутой публикаций, а найденные рисунки корректны, исправьте, пожалуйста, свои посты. Спасибо!


Кстати, некоторые изображения на самом деле всё ещё доступны для просмотра в публикациях, однако не перенесены на Habrastorage, а потому в какой-то момент тоже могут стать недоступными.


300 картинок
Автор ID публикации Индексы и ссылки Пример
0x62ash 27149 1
0xa8 11105 1
2Bad 607 1
1097 1
1106 1, 2, 3, 5, 24
13836 2
4eese 30820 1, 2, 3, 5
8cinq 41853 1
46498 1
Adam_B 12582 1
ainu 39501 1
alardus 2628 1
Alaska 23447 1, 2
aleks_raiden 24479 2
30594 3
39037 1
40312 1, 2, 3, 4
44152 1, 2, 3
46294 1
46741 1
47782 1, 2, 3, 4, 5
alfsoft 42782 1, 2, 3, 4, 5
alizar 37779 1, 2
altblog 44677 1
arestov 37921 1
artch 19726 1
badlittleduck 16292 1, 2, 3, 4, 5
Barkov 26335 1
BBSoD 8505 1
bO_oblik 22150 1, 2, 3, 4, 5
22186 1
22215 1
22322 1, 2, 3, 4, 5, 6
22334 1, 2
22375 1, 2, 3
22510 1, 2
22614 1
22836 1, 2
26181 1, 2, 3, 4, 6
28196 1, 2, 3, 4, 5, 6, 7, 8
29706 1, 2, 3, 4
31490 1, 2, 3, 4
36713 1
37180 1
37249 1
37306 1, 2
38013 1
38389 1, 2
41104 1, 2
41647 1
41821 1, 2
chisto_v 12783 1
chulak 45783 1, 2, 3, 4, 5, 6, 7
Cosss 31069 1
CurlyBrace 11010 1
11941 1
14157 1
37303 1
dreikanter 31320 1, 2, 4
entze 40767 1
Fenniks 20843 2
23902 1
39109 1
firstbyte 38314 1
freetonik 26593 1
frujo 40987 1
garbuz 29694 1
gorinich 12027 1
Gravitality 28840 1
href 46908 1, 2
iljava 30902 2, 3
Imposeren 26566 1
invladis 42904 1
Karlsson 8971 Down.gif, Same.gif, tpci_trends.png, Up.gif
31042 1
31050 1
31141 1, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17
Klaus 15775 1, 2, 3, 4, 5, 6, 7, 8
Lain_13 16891 2
le0pard 38391 1
LukaSafonov 43537 1
meako 26705 1
Midgard 31419 2, 3, 4
Mio 396 1
753 1
936 1
mozaic 744 1
Mr_Floppy 28343 1
nil 44476 1
officer 110 1
oleg_bunin 7207 1
7226 1
8679 1
12768 1
olegafx 43934 1, 2, 3, 4, 5, 6, 7, 8-9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19
ostrovityanin 37146 2, 3
ponomar 14141 1
porchini 21850 1, 2
Pure_BY 8416 1
RAF 851 1, 2
ramber 43693 1
rost 44380 1
ruskar 42578 3, 5, 8
saintd 702 1
SamDark 30104 1
Scala 37804 4
Shapelez 23260 1
44379 1, 2
46113 1
46599 1
47536 1
slaff 8134 1, 2
smartov 17160 3
smitana 30375 1
spanasik 44755 17
spiritus_sancti 41129 1, 2
SummerDream 3801 1
sunnybear 31211 1, 2
Switch 9095 1
Taoorus 37507 1
Thoggen 38733 1
45024 1
45170 1
tsepelev 36611 1
VadimUA 46922 1
vitol 26073 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21
30171 1, 2, 3
XaocCPS 40036 1
284390 1
284392 1
284394 1
284396 1
yaneblog 39007 1, 6
40621 3
yesutin 9453 1
9645 1
31078 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12
yshilyaev 5556 1, 2, 3
Zada 31123 2
Zigzag 15492 1

Вместо заключения


Возможно, кто-то посчитает, что восстановление такой устаревшей информации не имеет никакого смысла. А кроме того, часть из найденных изображений были бессмысленны и при их публикации. Несомненно, так и есть.


Любая информация важна. Как минимум, с точки зрения исторического анализа. Не говоря уже о том, что в некоторых авторских материалах она имеет ключевую роль. Да, на данный момент Хабру нет и 15 лет и некоторые из источников всё ещё доступны, но со временем их будет становиться всё меньше и меньше, а потому стоит задуматься заранее, останется ли что-то на потом, либо же будет вечное "изображение не доступно".


Ну и не стоит забывать, что заглушки недоступных картинок просто раздражают. Конечно, мало кто будет читать "какое-то старьё", но и такие люди найдутся. Потому, раз эти публикации на Хабре всё ещё есть, то и их содержание должно быть как можно более полным.


К сожалению, пока Habrastorage не поддерживает загрузку напрямую для всех форматов изображений, но может это когда-нибудь и будет исправлено.


Последняя проблема, которую хочется упомянуть, и о которой вы наверняка подумали, "а что, если автор уже давно не пользуется Хабром и ему не интересно исправлять старьё?" У меня этот вопрос в голове возникал и не раз, но решение здесь не так и сложно. Старые публикации всегда может исправить НЛО в лице модераторов (вы ведь можете, Exosphere?) или администрации (Boomburum может выдать кому-то задание).


А что думаете вы, стоит пытаться восстановить хотя бы что-то?


На сегодня всё. Спасибо за внимание и да загрузятся все ваши изображения на Habrastorage без проблем! Пусть не будет такого





P.S. Если вы нашли опечатки или ошибки в тексте, пожалуйста, сообщите мне. Это можно сделать выделив часть текста и нажав "Ctrl / ⌘ + Enter", если у вас есть Ctrl / ⌘, либо через личные сообщения. Если же оба варианта недоступны, напишите об ошибках в комментариях. Спасибо!


P.P.S. Возможно, вам будут интересны также другие мои исследования Хабра или вы хотите предложить свою тему для следующей публикации, а может даже новый цикл публикаций.


Где найти список и как внести предложение

Всю информацию можно найти в специальном репозитории Хабра-детектива. Там же можно узнать, какие предложения уже были озвучены, а что уже находится в работе.


Кроме того, вы можете упомянуть меня (написав VaskivskyiYe) в комментариях к публикации, которая кажется вам интересной для исследования или анализа.

Теги:хабра-детективхабра-анализhabrbustersbackupрезервная копияhabrastoragehstoHabr
Хабы: Habr Визуализация данных Хранение данных Веб-аналитика DIY или Сделай сам
Всего голосов 57: ↑55 и ↓2 +53
Просмотры9.5K

Комментарии 26

Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

Похожие публикации

Лучшие публикации за сутки