Pull to refresh

Выявление виртуалов в Википедии

Reading time 4 min
Views 16K
Википедия — свободная общедоступная мультиязычная универсальная интернет-энциклопедия, которая создаётся усилиями многих пользователей. На сегодня Википедия содержит 25 миллионов записей на 285 языках, почти полмиллиарда людей обращаются к ней каждый месяц. По полноте и глубине охвата материала Википедия сравнима со знаменитой Британской энциклопедией. Тысячи добровольных редакторов со всего мира постоянно пополняют её свежими статьями. Благодаря их бескорыстному труду создаётся и развивается это гигантское хранилище знаний.

Википедия стала самым популярным в мире источником общеобразовательных, исторических и научных знаний и входит в топ-10 самых посещаемых сайтов в Интернете. Она привлекает к себе не только тех, кто ищет знания, или хочет ими бескорыстно поделиться, но и маркетологов и PR-менеджеров, пытающихся использовать сайт в качестве рекламной площадки, размещать там заказные проплаченные статьи. Была создана компания Wiki-PR, специализирующаяся на написании и размещении в Википедии статей и правок рекламного характера. Цена размещения одной такой статьи варьировала от 500 до 1000 долларов. Отдельно выплачивался ежемесячный взнос порядка 50-70 долларов за то, чтобы статья или правка не была удалена, или же наоборот, чтобы был удалён и больше не появлялся на страницах Википедии нежелательный для заказчика материал. Этот момент заслуживает особого внимания.

Википедия – открытое сообщество, первая фраза, встречающая пользователей при входе на сайт, звучит так: «Добро пожаловать в Википедию, свободную энциклопедию, которую может редактировать каждый». Таким образом добавить в Википедию статью или внести правки может каждый. Но если они носят рекламный или предвзятый характер, то обязательно будут замечены и удалены в ходе редактирования. Для того, чтобы избежать их удаления, были созданы сотни дополнительных аккаунтов – сокпаппетов (англ. sock puppet — кукла из чулка или носка, надеваемая на руку, и вступающая в диалоги от своего имени даже с кукловодом), которые участвовали в обсуждении правок и создавали видимость их активной поддержки и одобрения.

Здесь необходимо сделать небольшое отступление. Дополнительные аккаунты, создаваемые одним пользователем, в Википедии не запрещены. Признаётся, что для создания таких аккаунтов могут быть вполне уважительные причины, например, для редактирования статей разной тематики, или для обсуждения спорных неоднозначных тем. Но участвовать в обсуждении определённой темы одновременно с нескольких аккаунтов, Википедия запрещает.

После того, как издание Daily Dot опубликовало статью о том, что размещение в Википедии заказных материалов носит не единичный характер, а перешло в разряд бизнес-услуг, на проекте были произведены массовые проверки. В результате этих проверок было заблокировано 250 дополнительных учётных записей пользователей, с которых на страницах ресурса размещались хвалебные статьи о продуктах или компаниях, а также осуществлялось активное лоббирование их интересов.



В своём блоге Сью Гарднер, генеральный директор Фонда Викимедиа, заявила, что действия редакторов, чьи учётные записи были заблокированы, нарушают основные принципы, благодаря которым Википедия высоко оценивается многими людьми. «Наши читатели знают, что Википедия не идеальна, но они также знают, что она служит исключительно их интересам и никогда не пытается продать им или порекомендовать какой-либо товар в том или ином виде», — пишет исполнительный директор Фонда Викимедиа.
Гарднер подчеркнула, что расследование использования виртуалов для редактирования статей пока не завершено и компания и в будущем намерена проверять незаинтересованность и независимость редакторов Википедии.

Одной из проблем выявления виртуалов является то, что использовать для этого технические методы, заключающиеся в сравнении IP пользователей, вправе только некоторые администраторы сайта, которые прибегают к этому лишь при наличии серьёзных оснований. Поэтому основным способом выявления двойников является поведенческий метод: сравнение правок и комментариев, которые позволяют предположить, что они принадлежат одному человеку. Для этого необходим соответствующий опыт, такая работа отнимает много времени, но даже в этом случае может закончиться неудачей.

Для помощи Википедии исследователи из Университета Алабамы в Бирмингеме Рагиб Хасан и Тамара Солорио создали программу, которая может помочь выявить sockpuppets – множественные аккаунты, принадлежащие одному человеку. Программа способна анализировать текстовые фрагменты, которые добавляются с разных аккаунтов, на основании чего определяет вероятность того, что они принадлежат одному человеку. Для сравнения используются грамматика, пунктуация, синтаксические и некоторые лексические особенности текста.
Эксперимент показал, что точность определения дополнительных аккаунтов одного человека при помощи данной программы составляет 70-75%, при этом предполагается, что дальнейшая работа над программой позволит увеличить её эффективность.

С самой программой, а также с инструментами, которые использовались при её создании и тестировании, можно познакомиться на странице проекта: docsig.cis.uab.edu/?page_id=68

По сравнению с другой схожей программой JStylo, которая была представлена на конференции 29C3 в Берлине, данный проект имеет преимущество в том, что может анализировать небольшие текстовые фрагменты, тогда как JStylo требует, чтобы на каждого «подозреваемого» был собран материал в 6,5 тысяч слов, а длина текста, авторство которого необходимо установить, составляла не менее 500 слов.

Программа, способная анализировать и определять авторство коротких текстов, может использоваться не только для помощи Википедии в выявлении клонов, но и для идентификации дополнительных аккаунтов пользователей на форумах, в обсуждении новостей, при размещении твитов, в других видах взаимодействия в интернете, где добавляются короткие комментарии и текст.
Tags:
Hubs:
+33
Comments 19
Comments Comments 19

Articles