Pull to refresh

Comments 31

Кстати вчера хотел его поставить, но потом передумал когда он сказал что требуется 30гб для кеша, а у мени они отсутствуют.
В FAQ написано:

You don't need a fast machine to run YaCy. You also don't need a lot of space. You can configure the amount of Megabytes that you want to spend for the cache and the index. Any time-critical task is delayed automatically and takes place when you are idle surfing (this works only if you use YaCy as http proxy).

Вроде работает. Памяти только до жути хочет =(
Кириллица в поиске не работает.
Релевантность на 0 (по запросу «windows 7» предложил скачать Putty и сходить на lenta.ru)

Кстати, интересно, что будет если нода отключится? В торрентах все раздают одно и то же и отключение пира лишь уменьшает число сидеров на 1. А тут получается, что может выпадать часть поискового индекса.
Уверен, что разработчики позаботились о репликации.
Примечательно, что кириллица не работает только в демке.

По релевантности — интереснее. Похоже, нода выдаёт то, что именно ей кажется более близким. Демка правда даёт что-то, не имеющее отношения к windows 7, у меня выдаются новости overclockers.ru (сильно подозреваю, что потому, что указал проиндексировать этот сайт)
Пишу Вам из 2014 г, т.е. три года спустя… лучше не стало. Кириллица и юникод вообще теперь работают отлично, это несомненный плюс! Но, к сожалению, поисковик до сих пор годится только для локального поиска по сайтам, но никак не для глобального поиска :)
UFO just landed and posted this here
Конечно, странно, что за 5 лет всё так грустно, но, с другой стороны, это же открытая разработка — сделали ядрышко в свободное время, теперь ждут помощи сообщества.
Кстати, название (YaCy) из-за первых двух букв наталкивает на мысль о Яндексе.
> Никакого хранения истории запросов, никаких следящих кукисов.
Ну то есть они никогда, увы, не смогут догнать коммерческие поисковики. Сильно сомневаюсь, чтобы это было возможно без анализа поведения пользователей и без поведенческого таргетинга.
А зачем их собственно «догонять» в количестве рекламного мусора и нарушении конфиденциальности?
в этой области не обязательно. но анализ поведения используется для улучшения качества поиска.
Что-то сомневаюсь я, что пользователю всегда требуется именно такое «качество», в котором первые позиции занимают проSEOшенные локальные коммерческие ресурсы.
1. коммерческим поисковикам не выгодно, чтобы в первых рядах были «просеошенные ресурсы», им выгодно, чтобы деньги носили не к оптимизаторам, а за контекстную рекламу
2. борются с накрутками они, в частности, с помощью анализа поведения живых пользователей; получается у них с переменным успехом, а без этого инструмента, вероятно, еще труднее.
А будет ли столько накруток в некоммерческом децентрализированном поисковике, сколько вирусов под Linux, например?
разумеется, если им никто не будет пользоваться, под него не будут накручивать. правда, вот беда, он будет подвержен значительной части накруток для «больших» поисковиков, но не будет обладать частью их механизмов для борьбы.
В ответ на запрос «WIkipedia» почему-то выдало первой строкой страницу из википедии об индийском кастовом ёге Шри Ауробиндо:). Что символизирует.
Однако подозреваю, что самой вкусной опцией использование клиента сабжа является «Search portal for your own web pages», что позволяет формировать поисковые сообщества, по сути независимые от большого гугла, а заодно и от ручонок всяческих копирастов и цензоров.
а у гугла вроде тоже есть собственный custom search, чтобы делать, скажем, «поисковик по серверам хеви-метал направленности» (и туда не попадут сайты по сталепрокату или оперные арии, а только нужные арии будут). Или я ошибаюсь с этой фичей?
У меня вылетела на последнем секундах установки… Win7 x64
К сожалению на P2P хорошо ложится только обход и индексирование сайтов,
а для собственно поиска и ранжирования надо уметь отработать запрос на всех машинах где хранятся кусочки индекса. Либо у них будут потери в скорости ответа, либо будет поиск по ущербно малой части интернета.
Кэширование может спасти.
ради релевантного ответа можно и подождать несколько секунд.
Если релевантность страдает сейчас, что будет, если там вдруг появится трафик и на поисковик обратят взор до сих пор невымершие спаммеры и дорвейщики?
активнее использовать поведенческие факторы
>On linux you need OpenJDK6.
Г-р-ррр… Переписать им код на нормальном языке что ли?
А воз и ныне там…
Вот интересно, почему никто и нигде не описывает и не обсуждает трафик, который эта штука пожрёт у того, кто его себе поставит? Нигде никаких хоть примерных цифр!

А ведь неплохо б такие штуки ставить на автономные, маленькие, и постоянно подключенные к интернету компы, такие как в роутерах нынче.
Sign up to leave a comment.

Articles