Pull to refresh

Начато восстановление удалённых из Википедии статей

Reading time 1 min
Views 35K
В сентябре прошлого года я сообщал о намерении сотрудников открытого вики-проекта «ALL» начать восстановление данных, удалённых в русской Википедии. До того момента было произведено скачивание удалённых статей, картинок, шаблонов и некоторых представляющих интерес страниц на независимые хранилища.

Поскольку ALL — энциклопедический проект, администраторы сохраняют там не всякий спам или самопиар пользователей контакта, но статьи о реальных людях, событиях, компаниях. Для начала выборка статей была произведена по определённому алгоритму, отсеивающему явный вандализм.


Например, восстановлены многие статьи о вымышленной вселенной.
По пояснениям программистов бота, алгоритм был следующим.
* Статьи с таким названием сейчас нет в Википедии (т.е. она не была воссоздана в виде отдельной статьи — только как перенаправление);
* В комментарии к удалению страниц нет одного из ключевых слов наподобие «вандализм» или «нарушение авторских прав», которые показывают, что страница вероятнее всего не представляет никакой ценности.

Бот отработал прошлой осенью, отобрав список из примерно 100 тысяч удовлетворяющих этим условиям статей.

В начале этого года был наконец запущен бот заливки. Он вздолбнул ALL статьями — в неё поступило более 2 тысяч удалённых статей из русской Википедии. На подходе ещё как минимум несколько тысяч небезынтересных статей. Их полный список вы можете прочитать по ссылке выше. При этом данными статьями не исчерпывается уникальный контент ALL: есть множество статей о людях, школах и, например, знаковых песнях.

В статьях есть шаблоны, категории и картинки.
Tags:
Hubs:
+21
Comments 71
Comments Comments 71

Articles