shifttstas Feb 12 2014 at 22:03

Yacy — распределённый не цензурируемый поисковик: три года спустя

2 min

141K

Information Security*Search engines*

+98

143

Comments 143

Melkij Feb 12 2014 at 22:28

Хм, интересно, почему я решил ту виртуалку с нодой погасить да так и не запустил обратно? Надо ещё раз ноду поставить.

-1

Bazanra Feb 12 2014 at 22:37

На картинке с поиском навального, одна страница на lurkmore.to находится в выдаче дважды.

Tairesh Feb 12 2014 at 22:41

Одна по http другая по https.

dyakov Feb 12 2014 at 22:47

С релевантностью у него не очень. По запросу google на первых 10-ти позициях его нет

shifttstas Feb 12 2014 at 22:53

Конкретно на главную сайта он очень редко выдает ссылки, а вот по содержанию страницы — отлично ищет

Funcraft Feb 13 2014 at 12:12

На картинках в статье с яндексом, насколько вижу, та же история

hell0w0rd Feb 13 2014 at 12:54

А вы попробуйте habrastorage в гугле поищите, например. Еще очень радует «ssh-add»

Tairesh Feb 13 2014 at 13:03

Это не показатель релевантности, зачем вам искать главную страницу гугла? О_о Попробйте на реальных запросах.

ElleSolomina Feb 18 2014 at 21:04

Дело не в главной гугл. Google это же ведь компания, согласны? :)

Факт остаётся фактом поиск так себе, и дело тут даже не в релевантности, а скорее в некотором внутреннем интеллекте алгоритма, и стабильности выдачи результатов по запросу.

p.s: поставил у себя ежемесячное сканирование русских вики ресурсов, сейчас уже досканировались, по идее должно было полегчать, но не полегчало, стало быть у YaCy действительно проблемы.

p.p.s: по запросу «Компания Google» тоже ничего :( в общем печаль, как она есть.

ElleSolomina Feb 27 2014 at 15:23

Ссылка на комментарий к версии 1.0, с релевантностью 3 года назад была такая же беда, видимо надо самим присоединяться к проекту и что то делать, ибо проект полезный и интересный, но, к сожалению, для глобального поиска абсолютно не приспособленный.

UFO just landed and posted this here

shifttstas Feb 12 2014 at 23:00

Он не может оценить поведение посетителей для определения релевантности, таким образом он использует контекстный метод поиска из-за этого ссылки на главную могут отсутствовать попробуйте поискать что-то кроме сайтов т.е информацию как в примерах.

Согласен что так быть не должно, но надо придумать алгоритм как поисковик будет распознавать какой сайт показывать как основной на основе url

dyakov Feb 12 2014 at 23:17

Алгоритм давно известен. Именно он сделал гугл популярным — page rank. Хотя этим часто злоупотребляют сеошники, это да

shifttstas Feb 12 2014 at 23:19

Несовсем, в большинстве случаев учитывается поведение пользователей при поиске для улучшения дальнейшего поиска

bolk Feb 13 2014 at 07:10

Если я не залогинен, гугл ищет так же хорошо.

Halt Feb 13 2014 at 07:53

Это вы думаете, что не залогинены ;)

+29

bolk Feb 13 2014 at 07:57

Веруете во всесильность Гугла?

-8

Halt Feb 13 2014 at 12:30

Здесь даже всесильности не нужно. Уже показывали, что открытых данных (id строка броузера, локаль, версия, ip, разрешение и д.р.), которые сообщает броузер достаточно, чтобы уникально идентифицировать пользователя и без всяких АНБ-шных штучек.

Ivanhoe Feb 13 2014 at 12:37

Panopticlick tests your browser to see how unique it is based on the information it will share with sites it visits.

Halt Feb 13 2014 at 14:24

Оно самое, спасибо за ссылку.

maximw Feb 13 2014 at 10:10

Да, но каким образом ваша залогиненность влияет на поведение других пользователей?

iavael Feb 13 2014 at 00:13

У гугла PageRank уже далеко на основной способ ранжирования.

bolk Feb 13 2014 at 07:11

а что основной?

VoVanJinn Feb 13 2014 at 08:03

Денежки.

-1

bolk Feb 13 2014 at 08:09

Это агентство ОБС вам сообщило?

VoVanJinn Feb 13 2014 at 08:16

Я давно подозреваю, что моя поисковая выдача больше зависит от того, сколько я сегодня оплатил за клики, нежели от хорошей поисковой оптимизации контента.
Это паранойя?

eugenius_nsk Feb 14 2014 at 22:47

Да

fenrirgray Feb 13 2014 at 08:32

Думаю верным ответом будет «никто не знает» т.к. официальной информации на эту тему нет, а все остальное — гадание на кофейной гуще. Возможно, впрочем, что я ошибаюсь т.к. к счастью уже давно не приходилось заниматься сео.
С другой стороны насчет page rank — да, напрямую на ранжирование он не влияет, зависимость какая-то определенно есть, но не более.

Badevlad Feb 13 2014 at 20:54

В перспективе все сводится к так называемому «поведенческому фактору». Лайки, шары, репосты, ретвиты, ну и, конечно, посещения. Кто, откуда, по каким запросам, как быстро ушел. Давненько не интересовался, насколько далеко Гугл в этом зашел, но примерно так выглядит ближайшее будущее (или уже настоящее) поиска.

BlessMaster Feb 13 2014 at 21:12

Это временная мода и она быстро сойдёт на нет благодаря накручивающим ботам и продаже права голоса. Будущее за развитием семантического анализа и языка взаимодействия человека и машины.

iavael Feb 14 2014 at 03:26

Анализ содержимого сайта с точки зрения удобства пользователя.
en.wikipedia.org/wiki/Google_Panda

Oreolek Feb 13 2014 at 06:58

У него очень маленькая база по русским сайтам. Я натравил когда-то на Хабр, Луркмор и свой сайт, и этот индекс распространился по сети — на этом фактически всё закончилось. На текущий момент ситуация всё ещё такая: хотите найти полезную информацию — сами добавляйте сайты, где она есть.

Halt Feb 13 2014 at 07:55

Ну так а в чем проблема? Автор в статье написал же про режим индексирования посещаемых страниц.

Oreolek Feb 13 2014 at 09:33

Это отдельные страницы, а я больше про то, что никто не пользуется добавлением сайтов. Индекс рунета почти не растёт.

Halt Feb 14 2014 at 16:02

Ну тут я с вами соглашусь. Но вообще, решил начать, как говорится, с себя: закроулил сайты по электронике, смолтоку и линуксам.

Спустя сутки, качество выдачи стало улучшаться прямо на глазах :) Я думаю, если народ пойдет в тему, очень скоро мы получим заметный результат.

freuser Feb 14 2014 at 18:16

Ну вот у меня висит в FF виджет от Blippex, отправляет на свой сервер адреса тех сайтов, где я бываю.
Запилить такой же для Yacy и ставить всем подряд ))

Halt Feb 15 2014 at 08:39

Так вроде Yacy умеет работать в таком режиме. Augmented что ли. То есть вы используете его как прокси, а он еще потом кроулит страницы, что вы посещали.

shifttstas Feb 15 2014 at 13:15

Верно, умеет

freuser Feb 16 2014 at 11:07

Ненене, одно дело поставить маленький аддон в браузер, который ни на что не влияет, а другое — пускать интернет через доппрослойку, которая может создать проблемы.
На своём компе — да, не вопрос. Но я имел в виду способ охватить и все соседские и не только компы, чтобы быстрее набралась база сайтов.
То есть добавить ещё функционал в Yacy, чтобы парсил не только свои сайты, но и те, адреса которых ему присылают «тонкие клиенты», которые не могут сами кроулить.

vikarti Feb 16 2014 at 11:39

я использую скрипт для greasemonkey/tampermonkey простейший вида
(по мотивам veclabs.posterous.com/ — добавлена явная проверка что не посылать)

// ==UserScript==
// @name YaCyIndexer
// @namespace https://yacy.domain.com
// @description Indexes visited pages with YaCy.
// @version 0.1
// @match *://*/*
// @grant GM_xmlhttpRequest
// @grant GM_log
// ==/UserScript==

// User parameters:
var paramYaCyLocation = 'http://yacy.domain.com';//адресВашегоСервера
var paramEnableQueryString = true; // Index pages with query strings (possible privacy leak).
var paramDepth = 1; // 0 = only the visited page; 1 = all links on visted page; higher values will index deeper but use exponentially more bandwidth.
var paramAgeNum = 7; // pages already indexed since this time won't be re-indexed.
var paramAgeUnit = 'day'; // units for above

// YaCy Arguments -- Don't change these unless you've read the YaCy API docs.
var crawlingstart = '';
var crawlingMode = 'url';
var crawlingURL = paramEnableQueryString ? window.location.href : [location.protocol, '//', location.host, location.pathname].join('');
var bookmarkTitle = '';
var crawlingDepth = paramDepth;
var directDocByURL = 'off';
var crawlingDepthExtension = '';
var range = 'wide';
var mustmatch = '.*';
var mustnotmatch = '';
var ipMustmatch = '.*';
var ipMustnotmatch = '';
var indexmustmatch = '.*';
var indexmustnotmatch = '';
var deleteold = 'off';
var recrawl = 'reload';
var reloadIfOlderNumber = paramAgeNum;
var reloadIfOlderUnit = paramAgeUnit;
var countryMustMatchSwitch = 'false';
var crawlingDomMaxCheck = 'off';
var crawlingQ = paramEnableQueryString ? 'on' : 'off';
var storeHTCache = 'off';
var cachePolicy = 'iffresh';
var indexText = 'on';
var indexMedia = 'on';
var crawlOrder = 'off';
var collection = 'user';

var yacy_url = paramYaCyLocation + '/Crawler_p.html?crawlingstart=' + encodeURIComponent(crawlingstart) + '&crawlingMode=' + encodeURIComponent(crawlingMode) + '&crawlingURL=' + encodeURIComponent(crawlingURL) + '&bookmarkTitle=' + encodeURIComponent(bookmarkTitle) + '&crawlingDepth=' + encodeURIComponent(crawlingDepth) + '&directDocByURL=' + encodeURIComponent(directDocByURL) + '&crawlingDepthExtension=' + encodeURIComponent(crawlingDepthExtension) + '&range=' + encodeURIComponent(range) + '&mustmatch=' + encodeURIComponent(mustmatch) + '&mustnotmatch=' + encodeURIComponent(mustnotmatch) + '&ipMustmatch=' + encodeURIComponent(ipMustmatch) + '&ipMustnotmatch=' + encodeURIComponent(ipMustnotmatch) + '&indexmustmatch=' + encodeURIComponent(indexmustmatch) + '&indexmustnotmatch=' + encodeURIComponent(indexmustnotmatch) + '&deleteold=' + encodeURIComponent(deleteold) + '&recrawl=' + encodeURIComponent(recrawl) + '&reloadIfOlderNumber=' + encodeURIComponent(reloadIfOlderNumber) + '&reloadIfOlderUnit=' + encodeURIComponent(reloadIfOlderUnit) + '&countryMustMatchSwitch=' + encodeURIComponent(countryMustMatchSwitch) + '&crawlingDomMaxCheck=' + encodeURIComponent(crawlingDomMaxCheck) + '&crawlingQ=' + encodeURIComponent(crawlingQ) + '&storeHTCache=' + encodeURIComponent(storeHTCache) + '&cachePolicy=' + encodeURIComponent(cachePolicy) + '&indexText=' + encodeURIComponent(indexText) + '&indexMedia=' + encodeURIComponent(indexMedia) + '&crawlOrder=' + encodeURIComponent(crawlOrder) + '&collection=' + encodeURIComponent(collection);
// проверяем не запрещено ли нам вообще этого host'а касатся
if ( (location.host!="accounts.google.com") && (location.host!="apis.google.com")  && (location.host!="mail.google.com") && (location.host!="s-static.ak.facebook.com"))
{
   
    GM_xmlhttpRequest({
        method: "GET",
        url: yacy_url,
        onload: function(response) {
            //  GM_log("YaCy indexing should commence.");
        }
    });    
}
else
{
//    GM_log("Will NOT process host:"+location.host);
}

недостаток — забивается слегка лог
с режимом proxy-индексации у меня было несколько проблем:
— страница должна запрашиваться без кук (или он не будет индексироваться, возможно я что-то путаю) а куча сайтов куки ставит даже когда юзер не залогинен
— если нет возможности YaCy как прокси прописать потому что уже прописано что-то другое и надо воротить сложные цепочки (допустим надо часть трафика направлять через прокси в европе, часть-директом, часть (*.i2p) вообще на I2P-ноду отдавать )

Halt Feb 16 2014 at 12:28

А что вы понимаете под базой сайтов? Если говорить про список доменов, то он набирается автоматически даже от одного единственного кроулера. Ниже представлен результат нескольких часов кроулинга хабра с моей ноды (кликабельно).

Поскольку кроулер шагает по ссылкам, предоставляемым пользователями, тут получается гораздо меньше сеошного шлака. В то же время, ссылки как правило ведут на осмысленные страницы. Другое дело, что релевантность будет определяться исключительно точностью запроса. Так что, на запрос «google» поисковик разумно возразит «ну а что гугл? есть такое слово» и в общем-то будет прав.

А вот граф для русской Википедии:

freuser Feb 16 2014 at 13:01

[offtop] Ссылки на картинки чучуть поломатые. Но после правки работают. [/offtop]

Ну насчёт списка доменов согласен, не был в курсе про такой функционал. Чтобы не было шлака, можно отдавать не домен, а прямо адрес страницы (вырезая POST-запросы и прочие персональные данные). Шпионство? Если отправлять анонимно и только один раз (опираясь на историю браузера), то это допустимое шпионство.

Опять же, Вы добавите хабр, а другой, кому Вы поставите такой виджет или юзерскрипт, добавит свои сайты. Так, глядишь, и теневой интернет выплывет ))

В данный момент стоит задача набрать критическую базу пользователей и данных для них, чтобы горстка энтузиастов не тянула всё на себе. А насколько это будет жизнеспособным и востребованным — покажет время.

QtRoS Feb 12 2014 at 23:02

Кто-нибудь объясните, пожалуйста, хотя бы в двух словах, как работает p2p поисковик?.. У меня более или менее укладывается в голове p2p файлообменник, торрент, но поисковик как-то не очень)

shifttstas Feb 12 2014 at 23:10

Каждый узел в сети имеет часть индекса, и он объявляет об этом, когда вы ищите Морковь то по DHT вам отвечают что на таких-то узлах есть информация по вашему поисковому запросу, ваш узел идет туда и собирает её, затем уже ранжирует

NavY Feb 12 2014 at 23:30

а может ли узел подделать свою часть индекса?

shifttstas Feb 12 2014 at 23:34

теоритически — да, но в Yacy есть механизмы защиты, которые тянут на отдельную статью

SunX Feb 13 2014 at 13:32

Хотеть такую статью :)

taliban Feb 13 2014 at 16:25

Теоретически, если я пир я вижу айпи того кто забирает у меня какую-то информацию?
И если да, то какая же это анонимность? Выложил зловредный контент, записал всех кто с тебя тянет его, наругал всех кого записал.

shifttstas Feb 13 2014 at 16:51

Распределение информации в сети происходит хаотично и вы не трогаете и не храните контент, вы храните где этот контент найти

taliban Feb 13 2014 at 17:28

Ну где-то он ведь хранится? Допустим у меня и хранится. Я выкладываю порнуху детскую, все видят что она у меня есть, и сообщают это тем кто ее ищет. У меня ведь ее будут тянуть? И если да, то буду ли я видеть их айпи?:)

shifttstas Feb 13 2014 at 18:14

Те кто к вам заходят? очевидно да они же по IPv4 будут заходить хотя они могут использовать прокси или Tor т.е как в обычном интернете.

Если же вы имеете ввиду будите ли вы видеть IP адреса людей котяре ищут её без захода к вам — то не факт, ты индекс о том, что у вас это есть хранится не только у вас + ваш индекс может быть переслан через несколько пиров (аналог луковой маршрутизации)

Goobs Feb 13 2014 at 09:31

Что представляют из себя узлы? Устройства волонтеров/добровольцев? Или по сереверам разбросано?

evocatus Feb 12 2014 at 23:22

А шифрование там есть?

shifttstas Feb 12 2014 at 23:24

Чего именно? Обмена по P2P — да

miragenn Feb 12 2014 at 23:36

Отличный проект. Сам когда-то о таком задумывался. Похоже сделали так как хотел )
Для себя делал прокси с Solr для поиска.

Roy Feb 13 2014 at 00:03

Ура!!! Наконец-то мы сможем найти Навального!!! Вопреки свирепствующей цензуре!!!

vanxant Feb 13 2014 at 01:07

Причем сразу на правильном ресурсе)

UFO just landed and posted this here

gaelpa Feb 13 2014 at 01:10

С опросами вообще всё плохо. Все варианты жутко категоричны.

shifttstas Feb 13 2014 at 02:31

А что бы следовало добавить?

BlessMaster Feb 13 2014 at 20:27

«Хочу пользоваться несмотря на ...» и дальше четыре положения из «не хочу», аналогично поступить с пунктами «хочу». Если развивать мысль дальше, то «надо», «буду» и «хочу» — очень разные люди.

Все эти восемь пунктов хочу/не хочу, это восемь независимых опросов, с различными степенями детализации ответов. В идеале, каждому опросу должна соответствовать хорошая статья о том, что это вообще такое, как это реализовывается и какова цена вопроса — имхо, наш социум, даже его «техническая элита» с этого сайта, скажем так, на грани необходимости проведения ликбеза по каждому из пунктов.

Stiver Feb 13 2014 at 00:22

если хабар пользователям будет интересна тема децентрализованных поисковых систем, я готов сделать обзор всего функционала Yacy и рассмотреть подробно как она работает

Мне был бы очень интересен подробный разбор работы их DHT. В сети ничего — за исключением исходного кода — не нашел, как ни старался.

Koncopd Feb 13 2014 at 01:10

Я думаю, что общая идея такая же, как в Kademlia (Как работает поиск в Kad Network). Вообще тоже бы хотелось увидеть подробное описание их протокола.

SLY_G Feb 13 2014 at 01:14

Подняли бы ссылочку на ресурс на самый верх статьи, или продублировали…

shifttstas Feb 13 2014 at 02:33

У ресурса проблема с размером канала который может не выдержать, гораздо лучше установить себе свой клиент

SLY_G Feb 13 2014 at 01:18

Интересно, и как туда добавить свой ресурс?

shifttstas Feb 13 2014 at 02:34

Проиндексировав его с вашей машины и подождать пока индекс разбежиться по DHT

avalak Feb 13 2014 at 03:07

Как обстоят дела с индексацией? Правильно ли я понимаю что yacy просто попытается спарсить сайт и вполне может получить бан?

shifttstas Feb 13 2014 at 03:10

Она ведет себя полностью как поисковой бот и многими системами так и определяется например в форуме PHPBB она умеет читать robots файл умеет ждать между запросами, я пробовал индексировать сайты и они не банят yacy habr/wiki — точно

avalak Feb 13 2014 at 04:06

После начала индексации yacy (и меня за компанию) благополучно забанили на некоторых сайтах.
На некоторых поиск изменился: результатов стало больше, но в топе оказались менее полезные страницы. Интересно, изменится ли ситуация после того как сайт полностью проиндексируется.

shifttstas Feb 13 2014 at 05:02

Да измениться, так же измениться после рассылки информации в сеть

От бана может спасти уменьшение скорости индексирования я обязательно рассмотрю это в следующем посте

Oreolek Feb 13 2014 at 07:01

Yacy — это обычный поисковый бот, он не скрывает это и подчиняется правилам из robots.txt. Скорость парсинга легко настраивается заранее или во время парсинга, а также можно поставить запрос на remote crawl — парсинг всей сетью.

avalak Feb 13 2014 at 08:02

И тем не менее его работа у меня вызывает больше вопросов чем ответов.

Для habrahabr crawl-delay задан равным 10, что даёт 6 запросов в минуту. Yacy показывает Crawler PPM равным 6. Это логично.

habrahabr.ru/robots.txt

User-agent: Yandex
Crawl-delay: 2
Disallow: /search/
Disallow: /js/
Disallow: /css/
Disallow: /ajax/
Disallow: /login/
Disallow: /register/
Host: habrahabr.ru

User-agent: Googlebot
Crawl-delay: 2
Disallow: /search/
Disallow: /js/
Disallow: /css/
Disallow: /ajax/
Disallow: /login/
Disallow: /register/

User-agent: Slurp
Crawl-delay: 8
Disallow: /search/
Disallow: /js/
Disallow: /css/
Disallow: /ajax/
Disallow: /login/
Disallow: /register/

User-agent: *
Crawl-delay: 10
Disallow: /search/
Disallow: /js/
Disallow: /css/
Disallow: /ajax/
Disallow: /login/
Disallow: /register/

anidb.net вообще запрещает индексацию сайта. yacy наплевал на robots.txt и добился бана по ip

anidb.net/robots.txt

User-agent: *
Disallow: /

User-agent: Spinn3r
Disallow: /

User-agent: Tailrank
Disallow: /

User-agent: Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.2.1; aggregator:Spinn3r (Spinn3r 3.0); http://spinn3r.com/robot) Gecko/20021130
Disallow: /

Скорость парсинга легко настраивается заранее или во время парсинга, а также можно поставить запрос на remote crawl — парсинг всей сетью.

Можно пояснить этот момент?
Насколько я вижу, можно задать только Speed / PPM, что является общим лимитом для всех индексаций.
Помимо этого можно заставить yacy игнорировать robots.txt и долбить сайт одному или с друзьями?

Oreolek Feb 14 2014 at 08:32

На вкладке Crawl Start (Expert) есть галочка Do Remote Indexing, которая отправляет заявку по всей сети.
Все задержки настраиваются на Advanced Settings — Performance Settings of Busy Queues.

Хотя согласен, настройки хорошо спрятаны.

maroziza Feb 13 2014 at 04:36

объясните пожалуйста, запрос «camomile dreams», почему у меня в результате полный список дистфайлов и образов генты? Что это за красноглазые намеки?
Сдается мне что оснавная часть индекса набивается во время посещений сайтой, поэтому индекс напрямую зависит от интересов аудитории. Выходит что популярный контент становится еще популярнее, а непопулярный вообще не попадет в систему и не может быть найден. Так? Ведь кто даст принудительны запрос индексирования сайта которого не знает? Особенно это касается старых, брошенных сайтов, на которых бывает весьма полезная и уникальная информация.

shifttstas Feb 13 2014 at 05:05

Бот в фоновом режиме обходит все сайты на которые есть ссылки, учтите что сеть индекса не такая как у гугла а значит и время требуется для набора информации.

В скриншотах я привел пример пары запросов которые обрабатываются достаточно точно + по идее, если данная технология будет популярна — сайты сами у себя будут ставить yacy для быстрого появления новой информации

Oreolek Feb 13 2014 at 07:04

Индекс напрямую зависит от тех сайтов, которые были добавлены в этот индекс самими пользователями. Кто-то добавил сайт с дистрами генты, а, например, на ЖЖ поисковик ещё никто не натравливал (что даже понятно по скриншотам). Самые преданные пользователи YaCy разговаривают на немецком, и на русские сайты они не заходят.

wazup Feb 13 2014 at 08:58

а portable версия есть?

amarao Feb 13 2014 at 11:19

А где сырцы?

rPman Feb 13 2014 at 12:41

Ссылка на главной не считается?

amarao Feb 13 2014 at 13:32

Не заметил (искал в меню справа)

Temych Feb 13 2014 at 11:29

shifttstas в заголовке «Три годя спустя»

KarasikovSergey Feb 13 2014 at 11:48

Когда я, активный пользователь интернета, потребитель нелегального копирайтного контента и интересующийся политикой с разных точек зрения человек слышу о поиске без цензуры — мне почему-то только кавказ-центр и детское порно на ум приходит, как вещи которые кто-то мешает искать в обычном гугле. Ни о какой другой цензуре, мешающей искать варез, порно, политику я не слышал, точнее слышал, но не сталкивался лично.

-7

rPman Feb 13 2014 at 12:39

Цензура в данном случае может выглядеть не так как ожидается.

Например поисковый гигант — монополист, может легко и незаметно уничтожить любую компанию, просто сместив выдачу результатов на нее в конец списка.
Это очень плохо, когда обычный пользователь считает поисковую систему — интернетом, именно поэтому за настройку поиска 'по умолчанию' google к примеру платит mozilla башенные деньги, а mail.ru/yandex/etc… платят разработчикам бесплатных утилит, чтобы те вставляли в инсталяторы приложений mail.ru guard/yandex bar/… которые перелопачивают пользовательскую систему и его настройки так что любой адекватный администратор за голову хватается и начинает плеваться.

К сожалению, на текущий момент не существует доступных технологий, которые способны бросить вызов уже сложившейся практике использования поисковых систем, но это нужно менять, дальше будет только хуже.

KarasikovSergey Feb 13 2014 at 12:42

Например поисковый гигант — монополист, может легко и незаметно уничтожить любую компанию, просто сместив выдачу результатов на нее в конец списка.

Есть прецеденты? Я пока не сталкивался с нерелевантным поиском.

К сожалению, на текущий момент не существует доступных технологий, которые способны бросить вызов уже сложившейся практике использования поисковых систем, но это нужно менять, дальше будет только хуже.

А при пользовании бесконтрольным децентрализованным поиском — кто отвечает за релевантность выдачи? Кто будет наказывать «сео-оптимизаторов»?

-4

shifttstas Feb 13 2014 at 14:13

Алгоритмы очевидно же. А когда мы говорим о цензуре мы говорим о том, что из поисковой выдачи могут быть выпилины не угодные власти/режиму новости

KarasikovSergey Feb 13 2014 at 15:03

Поступиться релевантностью в угоду гипотетической вероятности?

-2

shifttstas Feb 13 2014 at 15:31

В угоду программируемой вероятности, Яндекс не сразу строился и алгоритмы сначала были тоже не такие продвинутые

rPman Feb 13 2014 at 15:54

А при пользовании бесконтрольным децентрализованным поиском — кто отвечает за релевантность выдачи? Кто будет наказывать «сео-оптимизаторов»?

я это и имевю в виду, когда говорю что не существует адекватных технологий.

Ближайшее развитие будет идти в сторону развития 'контент провайдеров', мнение которых будет определять поток информации, фильтруемый для пользователя, который в свою очередь делает выбор между этими контент провайдерами, которых должно быть много.

iavael Feb 14 2014 at 04:01

сео-оптимизаторов наказывают алгоритмами, никаких людских сил не хватит модерировать поисковый индекс всего интернета вручную.

rPman Feb 18 2014 at 00:10

а я разве говорил про ручную обработку?

Отличным примером контент-провайдера с функцией поисковой системы на текущий момент можно предложить например google или yandex.

iavael Feb 18 2014 at 00:59

Я отвечал тому, кому отвечали вы, но промахнулся. KarasikovSergey говорил про контроль поисковой выдачи, чтобы в нее не попадал поисковый спам, однако, централизованные поисковики тоже не фильтруют выдачу руками, а полагаются целиком на алгоритмы, т.е. этим же самым может заниматься и децентрализованный клиент.

rPman Feb 18 2014 at 15:24

Есть прецеденты? Я пока не сталкивался с нерелевантным поиском.

roem.ru/2014/02/18/europagoogle92730/

BlessMaster Feb 13 2014 at 21:09

Вы конечно тролльски категоричны, но всё же минусуют зря.
Цензура — это не детское порно и не кавказ центр. Всё это фигня на фоне маразма творящегося с торрентами, войной за первые позиции и т.п.
Попробуйте в гугле поискать Яндекс — гугл ничтоже сумняшеся заменит слово «Яндекс» на «Google» и скажет, что я именно это и искал. По многим запросам гугл пихает на первое место википедию, даже если статья там на уровне «заготовка».
Война с сеошниками, имхо, проиграна — я могу долго и упорно листать страница за страницей в поисках контента, который «на ура» находился раньше, но теперь вместо него, я буду находить бредовую сеошную статью ни о чём, перепечатанную на тысячах сайтов, созданных исключительно для заработка на «прохожих». Это тоже можно рассматривать как форму цензуры, хотя это уже вопрос релевантности.
Всё это можно списать на то, что тратятся миллионные бюджеты на продвижение ссылками, статьями и т.п. Тот же Яндекс, например, уже декларировал отказ от ссылок как ранжирующего фактора. Но остаётся ещё «миллион» факторов, по которым поисковая система за меня решает, что тот или иной контент мне нужно видеть или не нужно. И независимо от того, ручное это вмешательство в алгоритм с целью устранить конкурента, неугодную действующей власти идеологию или настроенный автомат, (заметим, не без ошибок) реализующий желание мне максимально «угодить» — всё это цензура в той или иной форме. И да, я могу в 95% случаев быть согласным на такую цензуру, она может быть в рамках моих интересов, я могу заниматься самоцензурой. Но я оцениваю как не менее 5% собственную потребность получения полного спектра источников, а не «рекомендованного» и нахожу, что поисковые системы злоупотребляют моим доверием. Экономические же факторы ранжирования (пресловутая коррупция) — всегда остаются существенным риском.
Здесь выше в комментариях было высказано мнение, что поисковая выдача коррелирует с вложенными в рекламу средствами. Это мнение возникло не на пустом месте и я вполне могу объяснить, почему так происходит: вкладывая средства в рекламу в конкретной поисковой системе, руководство сайта обучает пользователей системы, которые в дальнейшем дают этому сайту некоторое предпочтение и он поднимается за счёт поведенческих факторов. Всё легально, все формальности соблюдены, но цель достигнута — за места нужно платить, посетителей можно покупать и делать это нужно именно в поисковой системе.

-2

nebularia Feb 13 2014 at 21:33

> Попробуйте в гугле поискать Яндекс — гугл ничтоже сумняшеся заменит слово «Яндекс» на «Google» и скажет, что я именно это и искал.

У меня на запрос «яндекс» находит (внезапно!) Яндекс. У нас разный Google?

BlessMaster Apr 18 2014 at 00:53

Значит «разный». Таки они отказались от этой практики и сейчас (внезапно!) гугл действительно показывает Яндекс, да ещё и со страницей профиля. Ну ок, одной претензией к гуглу меньше, но это не отменяет того, что так было. Жаль, не могу предоставить скриншота, в данный момент — это только моё слово.

rPman Feb 13 2014 at 12:20

Просим больше статей.
Индексирование сайтов i2p/tor будет работать как ожидается?

unxed Feb 13 2014 at 20:42

bugs.yacy.net/view.php?id=330
> «Remote Proxy» function is missing not reimplemented

Т.е. он пока не может работать в цепочке прокси. Соответственно, как минимум, с tor ничего не выйдет.

ElleSolomina Feb 27 2014 at 15:53

Дополню unxed: с I2P тоже ничего не получится, ибо клиент предоставляет только прокси в качестве интерфейса.

Однако можно извратиться, и сделать виртуальный интерфейс, к примеру на BadVPN. Ну а далее просто указать этот интерфейс, правда я пока лишь рассуждаю на эту тему и практических изысканий не проводил, так что не могу гарантировать что это будет работать ибо i2p не предоставляет какого либо сервиса (интерфейса), заменяющего DNS, а о подробностях работы TOR мне вообще мало известно.

Помимо этого в UNIX системах возможно настроить прозрачное проксирование I2P и TOR, и таким образом предоставить доступ YaCy в эти сети.

fire64 Feb 13 2014 at 17:06

Поисковик к сожалению имеет очень маленькую базу индексированных страниц.
По запросу «таракан» выдало всего 18 результатов, 12 из которых принадлежат лурке.

А часть запросов выдает «1-1 of -UNRESOLVED_PATTERN- „

Я думаю у проекта большие перспективы, в случае ужесточения цензуры, пока же ему далеко до идеала.

ElleSolomina Feb 27 2014 at 16:00

База индекса это, к счастью, вообще не особая проблема, ибо достаточно просто сделать побольше индексирующих нод. Уже сейчас данная статья дала значительный рост русскоязычных нод, и результат на лицо:

На запрос «таракан» 1-10 из 3 103; (2 946 локально, 4 078 remote), 158 из 39 удаленных узлов YaCy :)

У меня выдало много интересного, в т.ч. и таракана на викисловаре. Так что всё уже хорошо :)

p.s: посмотрел на общедоступном поисковике там результаты ещё более интересный, а с локальной ноды, выдалось в первую очередь то, что есть в локальном индексе.

unxed Feb 13 2014 at 20:39

Linux Mint 16, ставил из репозитория с оф.сайта.
При попытке настроить браузер на использования yacy в качестве proxy, на всех сайтах вижу proxy use not allowed.
Поискав в интернете причины, узнал, что нужно на http://127.0.0.1:8090/Settings_p.html?page=ProxyAccess снять галку «Nutze Proxy Accounts». Снял. Ничего не изменилось.

ЧЯДНТ?

unxed Feb 13 2014 at 20:54

Так, с этим разобрались. Нужно зайти на http://127.0.0.1:8090/Settings_p.html?page=http и включить «Transparenter Proxy».

При этом в качестве https-прокси он выступать не может (логично с точки зрения приватности).

shifttstas Feb 13 2014 at 20:58

Там есть еще одна интересная особенность, каждому пользователю выдается имя X.yacy к которому как-то можно получить доступ, документов пока не нашел насчет этого

Oreolek Feb 14 2014 at 08:01

Как раз доступ если зайти через прокси YaCy. Это чтобы не раскрывать реальные адреса пиров.

unxed Feb 13 2014 at 21:09

Теперь новая проблема: как заставить Google Chrome гонять http-запросы через proxy, а https — напрямую в инет?

shifttstas Feb 13 2014 at 21:13

плагином

Chamie Feb 13 2014 at 23:11

Через PAC-файл?

shifttstas Feb 13 2014 at 23:19

PAC Файл хрому можно скормить тоже только через EXTENSION API.

Chamie Feb 13 2014 at 23:36

Он разве не использует настройки IE?

Скрытый текст

shifttstas Feb 13 2014 at 23:42

Использует, но если настроить в IE, то он будет действовать для всей системы а не только для браузера.

Chamie Feb 13 2014 at 23:59

PAC — это JavaScript, в него можно прописать и анализ юзер-агента, как я понимаю.

avalak Feb 14 2014 at 00:00

Нет.

Для Linux:
chrome/chromium может получить данные о proxy из настроек среды (если используется DE).
В случае если используется WM настройки можно задать разными способами.

1. Стандартные переменные окружения для proxy (http_proxy и прочие)
2. CHROMIUM_USER_FLAGS и флаги
3. Через флаги

Заголовок

--proxy-server=host:port
Specify the HTTP/SOCKS4/SOCKS5 proxy server to use for requests. This overrides any environment variables or settings picked via the options dialog. An individual proxy server
is specified using the format:

[<proxy-scheme>://]<proxy-host>[:<proxy-port>]

Where <proxy-scheme> is the protocol of the proxy server, and is one of:

«http», «socks», «socks4», «socks5».

If the <proxy-scheme> is omitted, it defaults to «http». Also note that «socks» is equivalent to «socks5».

Examples:

--proxy-server=«foopy:99»
Use the HTTP proxy «foopy:99» to load all URLs.

--proxy-server=«socks://foobar:1080»
Use the SOCKS v5 proxy «foobar:1080» to load all URLs.

--proxy-server=«socks4://foobar:1080»
Use the SOCKS v4 proxy «foobar:1080» to load all URLs.

--proxy-server=«socks5://foobar:66»
Use the SOCKS v5 proxy «foobar:66» to load all URLs.

It is also possible to specify a separate proxy server for different URL types, by prefixing the proxy server specifier with a URL specifier:

Example:

--proxy-server=«https=proxy1:80;http=socks4://baz:1080»
Load https://* URLs using the HTTP proxy «proxy1:80». And load http://*
URLs using the SOCKS v4 proxy «baz:1080».

--no-proxy-server
Disables the proxy server. Overrides any environment variables or settings picked via the options dialog.

--proxy-auto-detect
Autodetect proxy configuration. Overrides any environment variables or settings picked via the options dialog.

--proxy-pac-url=URL
Specify proxy autoconfiguration URL. Overrides any environment variables or settings picked via the options dialog.

Например для использования PAC файла:
--proxy-pac-url=http://localhost/proxy.pac

4. Вроде был ещё способ через политики

Посмотреть текущие настройки можно тут: chrome://net-internals/#proxy

Для Win/Mac должно быть примерно так же.

shifttstas Feb 14 2014 at 00:14

Опять же, самый верный способ — API хрома.

-1

kiselev_dv Feb 13 2014 at 23:56

Свой уютный поиск по stackoverflow и докам к postgresql.
Навальный, не нужен дорогой.

shifttstas Feb 14 2014 at 00:15

Как один из вариантов :) вы можете проиндексировать эти сайты для всех, думаю будет полезно

avalak Feb 14 2014 at 00:38

Попробуйте ещё devdocs.io. О нём недавно была статья на хабре. Для документации получше будет.

kiselev_dv Feb 14 2014 at 17:27

Попробовал, но честно говоря, не понял чем лучше.

kiselev_dv Feb 14 2014 at 00:31

А как выпилить картинки из индекса и ограничить общий объем на диске доступный под индекс?

ElleSolomina Feb 14 2014 at 04:29

Данный вопрос мне тоже интересен. Не хотелось бы, что бы внезапно система рухнула из-за закончившегося места. Вообще, я так чувствую, разбираться с этой штукой придётся долго, да и нужно ли оно сейчас, кроме как в качестве механизма поиска по собственным сайтам, это ещё большой вопрос.

shifttstas Feb 14 2014 at 04:59

Я уже писал, что я по аналогии с cjdns постараюсь найти/перевести мануалы/спецификации

ElleSolomina Feb 14 2014 at 02:49

Занимательно, а могу я его на Windows без последствий поставить не в профиль юзеру а в папку Program Files? По умолчанию папка С:\Users\X\YaCy

ElleSolomina Feb 14 2014 at 02:57

p.s: да, с документацией полнопопие, как рядовой пользователь сможет это использовать — не представляю :(

ElleSolomina Feb 14 2014 at 03:02

Понятно, даже не смотря на выключенный на сервере UAC авто обновление не работает. Печально. Хотя я наверно зря обо всём этом тут пишу.

shifttstas Feb 14 2014 at 03:11

Авто обновление чего? Оно долго происходит.
Проект как не странно активно развивается каждый день есть новые коммиты.

Но я надеюсь, что в конечном итоге это будет не java

ElleSolomina Feb 14 2014 at 03:13

Авто обновление установленного софта :) При установке в PF, вне зависимости от состояния UAC обновляться само оно не не будет.

ElleSolomina Feb 14 2014 at 03:55

Эх, нет, не задалась у меня дружба с этой штукой, оно ставит зависимостями старую 64х битную версию Java, в итоге консоль управления Java перекрывается 64х битной версией (это критично, ибо даже настройки исключений для сайтов не настроить), а без этой 64х битной дурости YaCy просто не работает. В общем подождёмс пока научится работать с тем, что есть, I2P до такого уже доросли. А пока под снос, к сожалению. Пихать одно единственное приложение в виртуалку желания нет.

ElleSolomina Feb 14 2014 at 04:01

Брр, всё таки не понимаю, что происходит, попытался удалить явно остановленное приложение — инсталлятор ругнул, что оно работает, при этом службу я точно останавливал. Убил вручную процесс жабы, стала нормально запускаться служба. Видимо все проблемы из-за жабы, вспомнил, что с I2P тоже косячки подобные происходили, но как то сами поправились. В общем бррр — жаба редкостное, непредсказуемое зло.

ElleSolomina Feb 14 2014 at 04:26

Можно, вероятно это дурацкий вопрос, но всё же. Вот я добавляю сейчас индексы в коллекцию user (по умолчанию стояло), они хоть публично доступны, будут ли эти индексы расползаться автоматически? :)

shifttstas Feb 14 2014 at 05:00

В статусе на главном экране можете посмотреть, он будет переодически писать что и куда он отправляет от вас. Расползется намного быстрее при белом IP и открытом порту

ElleSolomina Feb 14 2014 at 06:23

Благодарю, этот момент я уже понял, просто было интересно конкретное соотношение «уникальный индекс/не уникальный индекс». В общем разбираться мне с этим ещё долго.

p.s: IP белый, порт открыт, куда уж без этого.

UFO just landed and posted this here

Oxyd Feb 16 2014 at 10:26

О! А как это настраивается? А то вот толь-ко-только убедился в том, что «эта хреновина» работает в OS/2 прямо искаропки и ещё не смотрел в документацию.

UFO just landed and posted this here

shifttstas Feb 16 2014 at 20:29

Я думаю её следует рассматривать как прототип, она же на Java еще написана

UFO just landed and posted this here

shifttstas Feb 18 2014 at 20:34

Вы уверены что надо описывать все минусы Java?

kiselev_dv Feb 19 2014 at 01:03

Нет, не стоит. Но и ваш наброс в данном топике был лишним.

uranik Sep 28 2017 at 16:39

А как это настроить, у меня не получается в режиме прокси запустить.

ElleSolomina Feb 16 2014 at 23:10

Занимательно конечно индексатор у YaCy работает. Накидал мну ему заданий, он поработал несколько часов, а потом стал автоматически вставать на паузу, хотя этого делать его никто не просил :( Сколько бы раз я не пытался его с паузы снять, он всё равно встаёт обратно. Вряд ли это корректное поведение, не подскажите где что подкрутить, что бы убрать данное поведение, ибо у меня идей нет.

ElleSolomina Feb 18 2014 at 18:42

Всё, с этим кажись разобрался оказывается лимита памяти в 2000 МБ (максимального для 32х битной жабы) ему не хватало, пришлось удалить из системы всю жабу, и на чистую установить только 64х битную версию, после этого переустановил сервис YaCy (I2P пришлось устанавливать заново, без этого сервис упорно не стартовал). После переустановки жабы и сервиса установил в настройках YacY максимальный объём памяти в 10000 МБ и в тоге сервис отожрав ~8 ГБ наконец то начал индексировать всё то, что я ему скормил :)

p.s: пишу сюда из соображений того, что такие проблемы могут ещё у кого то быть, и лучше опишу особенности использования тут.

ElleSolomina Mar 7 2014 at 18:21

Всё, кончились мои эксперименты. YacY просто перестал стартовать нормально, и теперь он просто вешается на старте (проработав 20-30 секунд, и отожрав примерно гиг оперативы). В логах при этом ничего криминального, т.е. нормальная работа а потом тишина. К сожалению более желания возиться с приложением нет.

uranik Sep 28 2017 at 16:37

Что-то не смог запустить как локальный прокси, если прописываю 127.0.0.1:8090 как прокси в браузере, то на любой адрес http://* вместо содержимого сайта просто открывается поисковая страница yaci аналогичная если открывать 127.0.0.1:8090

Show the best of all time