Хорошая статья, спасибо! Sci-hub я давно пользуюсь, очень хороший сервис:) Науку в массы!
спасибо! а кто качает медицинские статьи?
Чтобы это узнать, к сожалению, надо doi конвертировать не просто в издателя, а хотя бы в название журнала. Я пробовал для этой цели подключить OpenCitations, но в его корпусе очень многих статей не нашлось. Если где-нибудь встретится более полная база метаинформации, буду очень благодарен.
А есть какое-то разумное объяснение огромному бото-трафику в США?
Я думаю, что они просто пытаются сделать себе дамп сайхаба на чёрный день. Если бы я не знал про торренты либгена — а это вполне реалистичная ситуация — я бы сам так поступил. Тем более, что часть торрентов «сломана» (никого нет на раздаче).
Отчасти тут играет роль ещё эффект выжившего. Просто там качающие смогли написать нормального бота, который распределился по нескольким городам и успешно обходит капчу, а у других программистов сделать это не получилось.

Свой дамп может быть полезно иметь в нескольких случаях: чтобы не терять доступ, если сайхаб вдруг откажет. Имхо, для надёжного будущего, SciHub-у очень не хватает механизмов децентрализации — и люди понимают, что легко могут остаться без рабочего инструмента.

Ещё кто-то писал (сорри, ссылку сейчас не найду), что это полезно, чтобы проводить text mining по статьям, ибо получить у издателя разрешение на это — очень трудоёмкий процесс. Для публикации результатов всё равно придётся с издателем договариваться, но предварительные исследования проще сделать на спираченной версии. Но в этот расклад я меньше верю: качают, фактически весь год (хотя летом сильно активизируются); предварительная подготовка исследования в компьютерных науках столько времени занимать не может.

Вот недельный heatmap для США. Совершеннейшая дичь же
image
А готового дампа до сих пор нет? У вики в этом плане лучше — раз в год можно скачать дамп нужныз баз и пользоваться ими, используя kiwix.

Так википедия крошечная. А тут полсотни терабайт, если не ошибаюсь. Торренты сломаны и неудобны: это архивы(!) по сотне гигов каждый. Кажется, даже без нормального индекса, который позволил бы скачать только нужный торрент.

Если разбивать архивы тематически, то объёмы падают до вменяемых единиц, максимум 10-20 терабайт. Но вот если индекса нет, то это печально.
Я, как и вы, совершенно уверен, что это возможно (и очень нужно) сделать. Но на данный момент этой опции нет. Я очень надеюсь, что кто-нибудь осилит помочь сайхабу децентрализоваться и прожить долго.
Мне кажется, что вместо классических торрентов лучше использовать ZeroNet (https://zeronet.io). Там страницы будут скачиваться по требованию. Можно и поиск прикрутить.
Возможно тут дело еще в том, что в США расположена куча недорогих хостеров, с серверов которых и запускаются боты.
А, ещё, как я упоминал, где-то могут сидеть телеграм-боты и аналогичные шлюзы, через которые ходит толпа людей по всему миру. Не исключено, что в Штатах есть несколько серверов такого рода.
В США расположены датацентры Amazon, Google, Microsoft и т.п., в которых, видимо, и запущены боты, анонимайзеры и VPN-сервисы используемые по всему миру.
Александра Элбакян пишет: «В статистике также отбрасываются обращения с облачных сервисов Амазона и Гугла, расположенных в США». И утверждает, что в США прокси как раз менее доступны.
Вечерний горбик — очень характерная штука почти для всех сервисов в интернете, кстати.
Эм… ресурс имеет весьма эксцентричный подход в блокировании тех или иных диапазонов адресов. Да, именно сам ресурс. Использование всевозможных анонимайзеров для доступа к донному ресурсу — не редкость.
Рассматривать серьезно полученные данные в описанном ключе, не совсем логично. Или я ошибаюсь?
На моей памяти, было только полнедели в сентябре, когда ресурс был недоступен из России. Вклад этого события, как я показал, не очень велик. Обсуждать политические аспекты управления ресурсом в рамках данной статьи я бы не хотел.
Нет, нет. Речь не об этом. Дело в том, что данный ресурс блокирует запросы от научных и образовательных сетей(NRENs). Без оснований, без жалоб, без видимой на то причины.
Да и это один из приведенных аргументов. Второй это анонимайзеры. Ресурс имеет неоднозначную репутацию.
Я про такое не слышал, и легко могу представить, что их блокируют сами учреждения. Файрволлы в научных институтах обычно стоят и зависят от админа. Даже если их действительно блочит сайхаб, это может до какой-то степени повлиять на наблюдения, но я не ожидаю, что поправки будут серьезными.
Anyway, вы можете попробовать сами обнаружить вклад от таких блокировок, пытаясь вычленить институции, предположительно подверженные им и те, что похожи на них, но не блокируются. Я уверен, что в небольших городах вполне можно найти ip институтов и даже понять, who is who. Например, прокоррелировать списки цитирований сотрудников НИИ и списки скачиваний.
Собственно, одна из целей статьи — побудить других поисследовать датасет и откопать что-нибудь новое.
Тут вот в чем момент. Не блокируется. Пакеты доходят до самого ресурса. Их игнорирует принимающая сторона. При этом судя по тесту(есть возможность его провести) заблокированы подсети серьезными кусками \21-22.
По поводу поправок. Если блокируются все NRENы(Это предположение. Но имеющее под собой основание.), то речь не о малых поправках а о полном несоответствии.

Я от вас впервые слышу про проблему. Можете ссылкой поделиться на какой-нибудь материал про это?
Ваш NREN, кстати, не висит на каком-нибудь крупном хостинге? Меня, скажем, википедия банит при попытке редактировать статью через VPN на Digital Ocean. Объяснение простое: DO — крупный хостинг, с которого потенциально может прибежать толпа ботов, поэтому его забанили целиком
Мог бы поделится логами(в разумных приделах) да трейсроутами но увы не сохранил, а снова их выискивать в хранилищах не очень хочется. Ситуация периодически повторяемая, т.е., в данный момент блока нет.
И нет, не висит. Сами все хостим.(Хотя не совсем ясно причем тут хостинг). Да и адреса от райпа непосредственно переданы. Было предположение, что нагрузка большая на сам ресурс, мол не справляется. Но стоило зайти с адреса других провайдеров, все работало на ура. Продлилось чуть более месяца в начале этого года. Были случаи и ранее. Учитывая, что игнорируются не отдельные адреса а подсети, при этом без вредоносной деятельности в отношении данного ресурса в прошлом, я и высказываю о весьма странном поведении самого ресурса. Отсюда и сомнения в данных.
Ну а как реагирует клиент на такую ситуацию и кому он больше верит, вам(даже при наличии прямых доказательств непричастности) или своим предположениям, что вы такой плохой и все режете, представить не сложно.
Я верю в технические проблемы, но не верю в злой умысел (как минимум, сложно думать, кого бы ещё забанить, когда на твой выбор миллионы пользователей во всех странах мира). Если получится отследить, что происходит, будет хорошо.

Про хостинг я не очень удачно выразился. Вопрос в том, кто выдаёт вам IP. Есть диапазоны адресов, принадлежащие amazon, google, DO итд, которые хорошо известны — и трафик с них может вырубаться просто на всякий случай.
Есть ещё шанс, что кто-то из вашей же сети просто врубает слишком агрессивного бота и тем подводит вашу сеть под бан по лимиту на число скачиваний. Попробуйте это помониторить.

А в данных не сомневайтесь. ;) Когда у вас измерений много, такие мелочи как блокировка сети /21 могут быть проигнорированы: всё усреднится. Если бы средства обхода блокировок использовались массово, на графиках это было бы очень хорошо видно (см. кейс Монреаля).
Я верю в технические проблемы, но не верю в злой умысел

https://habr.com/post/406449/ — Sci-Hub прекратил работу на территории РФ. Александра Элбакян обиделась

Ещё раз, сервис обслуживает добрую сотню стран и огромное количество сетей научных учреждений. Вы всерьез считаете, что администратор ресурса в состоянии бегать по десяткам тысяч институций и искать, кого бы забанить сегодня вечером? Эта задача даже чисто логистически не решается.
Так или иначе, в рамках этой статьи я не хочу обсуждать политику управления ресурсом. Только статистика, только хардкор!

Забанили немного по другой причине — Википедию (как и прочие проекты фонда Викимедиа) запрещено редактировать через открытые или анонимные прокси, поскольку подавляющее большинство заходов через прокси совершаются с деструктивными целями (обход блокировки, желание нарушить правила, не «паля» основную учётку, вандализм).

Поэтому диапазоны хостеров превентивно банят, а если какому-то участнику нужно править Википедию через личный прокси-сервер, то такому участнику выдают специальное исключение (и для этого должна быть объективная причина, например — доступ к Википедии заблокирован в стране проживания участника, а не просто «я параноик и хочу через прокси»).
Ну так это примерно эквивалентные вещи. У меня своя VPS на DO, работает в том числе как прокси, но не открытый, а закрытый — т.е. не попадает под это правило. Проблема в том, что все всю подсеть википедия отнесла к потенциально открытым прокси.
Так эта подсеть и есть потенциально открытые прокси. Такие диапазоны хостинг-провайдеров банятся превентивно, потому что число нарушений оттуда значительно перевешивает полезный вклад, к тому же, создавая в сообществе токсичную атмосферу.

Насчёт прокси — в рувики, например, к прокси относятся вообще негативно. Если у вас, допустим, дома весь трафик завёрнут в ваш собственный приватный VPN, то вам сперва предложат настроить маршрутизацию таким образом, чтобы править Википедию в обход VPN.
Так я про то и говорю. Я наткнулся на это ровно в тот момент, когда не смог править википедию через свой приватный VPN.
Что меня удивило — это что они не могут добавить в белый список конкретный IP, если он входит в заблокированный диапазон. Но это уже оффтоп.
Надо ещё учитывать, что какие-то диапазоны заблокированы глобально (во всех разделах), а какие-то — только в конкретном языковом разделе (допустим, в ру-вики ходит бот и блокирует).

Я не уверен, что можно добавить, скажем, в ру-вики исключение для адреса, заблокированного глобально. Если это интересует, лучше спросить у инженеров или на техническом форуме в ру-вики.
Хм. Я думал, что у них черный список стоит почему-то перед белым, но не думал, что там просто может быть многослойная структура фильтрации. Возможно, стоило просить о внесении в белый список на глобальной вики (кстати, английская вики и глобальная — синонимы?)
Впрочем, пока в России википедию не заблокировали, лень разбираться; проще VPN отключать.
Глобальная — это мета, meta.wikipedia.org.
Английская — это просто языковой раздел, как русская или немецкая.
Спасибо, буду знать!

Спасибо за интересный угол зрения на мир! :)


Некоторые мысли:


  1. Вечерний пик в Китае — детей уложили же! :) Штрафы на второго ребёнка относительно недавно отменили, да и в общем — у активных техников/инженеров/программистов как раз и дети соответствующего возраста есть. :)


  2. Вечерние спады жары — что любопытно, очень актуально как минимум на примере юга Германии. Последние несколько лет климат меняется, становится сильно и дольше жарче при достаточно высокой влажности — а кондиционеров в частных жилищах почти ни у кого нет, народ на улицах до позднего вечера часто тусит. Ну, а с телефона/планшета не очень удобно научные статьи тягать.


  3. В Индии по ощущениям последние несколько лет бум embedded — в том числе и всяческого околоавтомобильного — а это куча электрики и электроники.


  4. По миру — сопряжение центров аутсорса (Индия и кто ещё?) со временем заказчика.


  5. Тунис хоть и мусульманский, но очень светский, так что там могут и фрилансеры, да и просто инженеры быть. В моей профжизни в Германии среди не так уж большого количества арабоязычных ребят процент тунисцев, отучившихся в Германии (вплоть до докторской) необычайно высок — это может быть интересный факт. Да, а еще у них цветная революция была и уровень жизни просел — может, эмигранты, например, через VPN через родные адреса качают? :)
1) Вечерний пик в Китае всё-таки не настолько поздно. Как пишет мой товарищ, живущий в Китае, там во многих компаниях полагается ужин, поэтому люди работают до 8.
2) Если сопряжёте данные скачиваний с погодой за окном, поделитесь результатами! Я, боюсь, не осилю ещё на месяц уйти в исследование, у меня диссер недописан. :)
4) Ага, это было бы очень интересно отловить. Правда, может оказаться, что в эти моменты работники сидят в скайпе, а статьи читают совсем в другое время.
5) Мне кажется, VPN-ом пользуются немногие люди (и немногие учёные, в частности). Если можно с родного компа качать, то люди не будут заморачиваться тем, чтобы качать через родные адреса.
Что меня действительно удивляет — это полное пренебрежение сайхабом в КНДР. Иран, вынужденный жить под санкциями, нашёл способ читать научные статьи. А КНДР (хотя народу там ого-го) почти совсем не качает: всего 3773 закачки за год.
В КНДР очень ограниченный доступ к инетрнету. Насколько мне известно, процесс получения любого материала там выглядит так: нужно написать заявку, которую рассмотрит специальный отдел, они скачают, материал должен пройти цензуру и после этого он появится на внутренних ресурсах в Кванмёне.
5. А ещё на волне этой страшной «цветной революции» у них во власть пришла (вряд ли удержалась, конечно, но всё равно результат) пиратская партия.

Вы смеетесь, а я такие тексты наблюдал написанными рукой, покороче конечно.

Поясните, пожалуйста?

Спасибо за очень любопытную статью. Работая до недавнего времени в России, а последний год в США, могу сказать по своему опыту: в России журналы скачивал практически всегда через scihub, даже если у института была подписка. Так было удобнее. Не нужно задумываться, подписаны мы или нет (скорее, нет). В университетах США воспользовался сайхабом от силы пять раз, уж не помню почему. Доступ практически к любым журналам, которые мне могут понадобиться (физика, электроника, химия), скорее всего, у Университета есть. И, конечно, удобство кликанья по гиперссылкам из одной статьи в другую ни с чем не сравнимо. Не нужно, по сравнению с сайхабом, выделять название и загонять в поиск, если нет DOI, скачивать, открывать и т.д. Конечно, когда есть доступ почти к любой статье, чтение одной выливается в десяток-два открытых закладок браузера, но, черт возьми! до чего ж это удобно. И когда нужен доступ из дома, просто перелогиниваешься с университетского VPN. Эффективность такой работы с литературой, конечно же, на порядок выше. И я благодарен сайхабу за эту, пожалуй единственную возможность для российских ученых иметь пусть отчасти паллиативный, но доступ. Без этого было бы совсем печально.
Спасибо за статью, познавательно. А как там с авторским правом? РКН не добрался? Можно скачивать не боясь наказания?
Следить за авторским правом — задача не РКН, а издателя. В России, насколько я знаю, наказания за нелегальное скачивание объектов авторского права нет, но есть ответственность за распространение. Судя по тому, что торренты живут, даже эта ответственность де-факто (широко) не применяется. Но вы же в России, тут невозможно заранее знать, остаёшься ли ты в рамках закона, поскольку рамки постоянно двигаются. :) Use it on your own risk.
Рамки они такие рамки…
Индусы знают английский, а китайцы — нет.
Ваш Кэп.
Тем не менее, мы видим, что китайцы качают больше всех. Мне кажется, это немного противоречит вашей гипотезе.
Мы же говорим не про всех китайцев, а про учёных. Работать в современной науке, не зная английского фактически невозможно.
«Знают» и те, и другие. Но первых невозможно слушать, а вторых — читать)
По поводу Ирака и Ирана. Показал статью своему аспиранту из Ирака. Он объяснил специфику в паттернах поведения следующим:
1) в Ираке у ученых практически нет интернета на работе, они все ищут статьи из дома. В Иране — наоборот — интернет у многих только на работе.
2) «ночная жизнь» в рамадан: дейсвтительно, у них два приема пищи. Один — сразу после захода солнца около 8 часов вечера, и второй — в 3-4 часа ночи. Мы можем видеть эту картинку по перераспределению рабочего времени в Июне. Между приемами пищи многие садятся за работу.
3) Пик в Ноябре в Ираке — это не дедлайны по грантам (там вообще нет никаких грантов). Это время, когда дома можно наконец-то нормально поработать + конец года играет свою роль. Температура за окном нормальная (не требуется включать обогреватеь или кондиционер), это означает что не будет перебоев с электричеством. Поэтому все пытаются в это время сделать как можно больше. Можно заметить пик-антагонист в марте, когда устанавливается похожая погода.
Круто, спасибо огромное! Добавлю в статью ссылку на ваш комментарий.
Только полноправные пользователи могут оставлять комментарии.
Войдите, пожалуйста.