v1000 Nov 26 2007 at 21:22

Распределенный поиск Majestic-12 мечтает о лаврах Google

1 min

803

Lumber room

+46

Comments 81

posthuman Nov 26 2007 at 21:47

Идея хорошая. Жаль, что не моя ;)

В свое время к подобным seti проектам подключался, так сказать из человеколюбия и веры в светлое будущее. В отличие от них, Majestic-12 смахивает на коммерческий проект. Может пока он не такой, но когда вырастит точно станет. В этом и его слабость, как проект начнет зарабатывать люди осознавшие это начнут отключатся, жаба задавит.

UFO just landed and posted this here

posthuman Nov 26 2007 at 22:29

в Скайпе ты получаешь замену твоему трафику, оплату за него. А в этом проекте?

UFO just landed and posted this here

posthuman Nov 26 2007 at 23:02

А оплата разная бывает, в скайпе это voip :)

UFO just landed and posted this here

posthuman Nov 26 2007 at 23:24

ну ну)

kiev Dec 1 2007 at 17:41

какая красота )))) честные - сразу признались что типа дайте нам обследовать самим ваш комп, а то гугл все вокруг да около - то почтой заманивает, то ворд-ёкселем соблазняет что-б личные документы на гугле хранить, а эти крендели сразу прямо - скачайте нашего трояна и все тут)))

djatel Nov 27 2007 at 16:01

В скайпе есть voip ??

CheFF Nov 27 2007 at 08:22

Биттирент тоже еще жив. Судя по всему и не собирается умирать.

CheFF Nov 27 2007 at 08:23

*Битторент

UFO just landed and posted this here

Tolsty_kot Nov 26 2007 at 22:11

О! Как шикарно можно скормить этому поисковику индексацию собственного сайта...

kiev Dec 1 2007 at 17:43

а еще сколько жульничеств можно придумать - то вообще ))) если не самому смахлевать то вирусы это сделают ))) их программа то под винду написана, а винда без вируса не бывает

entze Nov 26 2007 at 22:12

Что важнее - проиндексировать как можно больше страниц или находить то что надо. Я за второе. Если система в дальнейшем также распределенно позволит настраивать индекс, тогда другое дело. Ноя не представляю как это можно сделать "руками". Даже сравнивая с википедией - там ты написал материал, прицепил ссылки, а здесь надо много читать чтобы настроить ссылки. Может будет некая первоначальная система рейтингов, а финально будет подкручивать коммюнити?

В общем поиск хорошо, а чтение мыслей ищущего - лучше.

borit Nov 27 2007 at 05:50

"То что надо" из количества наверное происходит ?

freehome Nov 26 2007 at 22:29

когда-то давно пришла такая же идея в голову

забил на нее, когда не смог ответить на вопрос со стороны юзера: зачем предоставлять свой канал, если тоже самое (по сути) можно найти в гугле?

serene_11 Nov 26 2007 at 22:32

Думаю, что не ошибусь, если предположу что в дата-центрах Google индексацией занимается значительно больше отдельных компьютеров, чем участников в этом проекте. Google уже давным давно это придумал.

malicious Nov 26 2007 at 22:55

Ну это несколько другое.

caxep Nov 26 2007 at 22:44

А за такую картинку гугл по шапке не даст?

caxep Nov 27 2007 at 00:19

Как мне кажется, бульдозер, сносящий логотип, как-то не корректно, вот и все.
P.S. спасибо неадеквату за карму ;)

twi Nov 27 2007 at 08:25

Это будет такой подарок со стороны гугла...

fatal Nov 26 2007 at 22:57

Команда по индексированию с именем "Ukraine" на 9-м месте на сегодня. ;)

fatal Nov 26 2007 at 23:00

...и на 19-м в общем зачёте.
Команда "Russia" пока довольствуется 54-м местом. :P

VaNcHeR Nov 26 2007 at 22:58

Если этот проект хотя бы в теории в далёком будущем сможет отнять небольшую долю рынка у гугла, то гугл его купит задолго до этого момента ;) пока же этого не видно...

khim Nov 26 2007 at 23:58

Создать распределённого паука, в общем-то, не так и сложно (хотя я уверен что там не всё так просто: как хорошо они убирают дупликаты, к примеру?). А вот создать распределённый поиск... Тут-то собака и порылась... В сети eDonkey при на порядок меньшем числе URL'ов поиск - отвратительный. В M12 - пока вообще не работающий. Что толку хвалиться числом проиндексированных страниц если поиска нет вообще ?

caezar Nov 26 2007 at 23:04

а в чем собственно польза чуловеку предоставившему часть своих ресурсов на благо компании у которая не хочет тратить деньги на покупку серверов.

UFO just landed and posted this here

caezar Nov 26 2007 at 23:18

угу. денег на сервера нету, а на крутых программеров найдут

Ampersand Nov 26 2007 at 23:41

Первая проблема, с которой сталкиваются крутые программеры при разработке ПО — денег нет ;)

UFO just landed and posted this here

khim Nov 27 2007 at 00:08

1. Гугл никогда не пользовался альтавистой.
2. Гугл начинал с решения задачи поиска.

Эти же ребята пока над основной задачей (быстрая обрабатка больших массивов информации) даже не думали. Кому нафик нужен поисковик, который выдаёт восхитительные ответы через месяц после того, как ему задали вопрос ?

Основная задача в поисковой системе - это как-то ограничить потоки информации (ведь речь идёт о многих терабайтах HTML-страниц и тысячах запросов в секунду!). Если вы вместо 10Gbit каналов используете 10-100Mbit (а мало у кого из добровольцев есть более скоростное подключение) и вместо задержек в миллисекунды имеете задержки в секунды - то вы усложняете себе задачу на четыре-пять порядков (десятичных). Ну может у MJ12 есть какие-то алгоритмы, которые в миллион раз эффективнее того, что использует Google, но что это за алгоритмы ?

-1

simeona Nov 27 2007 at 01:03

Вы кажется не поняли суть проекта. Пользователи не выдают ответы на поисковые запросы. Их компьютеры лазают по сайтам, индексируют их и передают эту информацию серверам M12. Где все и хранится.

UFO just landed and posted this here

simeona Nov 27 2007 at 03:35

Вот-вот... Все громкие названия "распределенный поиск" и т.д. - это просто для красного словца.

UFO just landed and posted this here

khim Nov 27 2007 at 14:52

Угу. А попытки скачать всё через p2p - с самого начала бредовые. Если вы всё равно должны как-то передать данные "в центр", то что мешает этому "центру" скачать всё напрямую ? Экономия есть, да, но по сравнению с необходимостью всё это как-то обрабатывать и где-то хранить затраты на скачку меркнут...

yelbota Nov 26 2007 at 23:05

а где исходники?

antono Nov 27 2007 at 00:36

меня этот вопрос тоже интересует.

UFO just landed and posted this here

Over Nov 26 2007 at 23:12

вбил я поисковый запрос, дождался таймаута, и закрыл. может, индексируют они и много, но искать неудобно.

freehome Nov 26 2007 at 23:28

аналогично

f33l Nov 26 2007 at 23:13

а меня посетила мысль, что эта концепция (наверняка не в первоначальной реализации) имеет потенциал прийти на смену централизованному поиску, как p2p в свое время сменило варезники.
очень интересно.

khim Nov 26 2007 at 23:46

Варезники кончились по одной банальной причине: их довольно просто "найти и обезвредить". С p2p сложнее.

Но Google пока никто закрывать не собирается!

f33l Nov 28 2007 at 00:54

причина ясна, я имею в виду сам принцип: система устаревает, ей на смену приходит новая. варезники были уязвимыми - сделали децентрализацию. поиск выдает сео-помои - сделают что-то на смену, скорее всего с участием все того же принципа децентрализации. причем классические поисковики-то не умрут, разве варезники умерли? ) просто контент разный. а если еще точнее, не суть контента, а его мм подача.

zencd Nov 26 2007 at 23:23

Вообще идея интересная, ведь с помощью такой системы можно проиндексировать и то чего нет о_О (на просторах интернета) ^:-).

Ещё можно ботнеты для этого дела приспособить, чтоб не простаивали :).

SeVit Nov 26 2007 at 23:26

А кто-нибудь попробовал произвести поиск?
Не работает! Да вобщем-то и неудивительно.

Брать за основу парсер html'а реализованный на .NET ... - :)
Хранение они реализовали видимо тоже на чем-то не из той оперы.

Убийственный выбор инструмента разработки похоронил проект, не успел тот родиться.
По моему мнению, волонтеры, участвующие в проекте, в данном случае в пустую тратят ресурсы своих машин.

pragmatic Nov 26 2007 at 23:32

Передать работу по загрузке/разбору страниц на сеть из хостов добровольцев с низкой доступностью вполне допустимо, и от этого качество не очень страдает, т.к. данные не задерживаются на хостах с низкой доступностью.

Но переложить на них отработку поисковых запросов не получится, т.к. имеются очень жесткие требования к времени генерации ответа (

pragmatic Nov 27 2007 at 01:18

...генерации ответа (менее 2сек). Я уже не говорю о доступности: чтобы обеспечить 99,9999% доступность единицы уникальных данных, в обычном датацентре требуется создавать 3-кратную избыточность серверов с доступностью 99%. А чтобы обеспечить 99,9999% доступность в сети серверов с доступностью 50%, эту единицу уникальной информации потребуется продублировать на 20 серверах.

Загрузка страничек и их разбор требует мало ресурсов относительно ресурсов, требуемых для хранения индексов/документов и исполнения запросов пользователей.
Судя по тому, что ребята "экономят на спичках", пытаясь переложить эту простейшую работу на пользователей, у них совсем туго с финансированием. И, вполне очевидно, с настолько ограниченным бюджетом потеснить гугл у них нет никаких шансов.

Aleco Nov 27 2007 at 14:35

99,9999% доступность это <3 секунд офлайна в месяц. Такая доступность не требуется ни на одном из сетевых сервисов по практическим причинам.

pragmatic Nov 27 2007 at 17:12

Это доступность не сервиса в целом, а единицы информации (которая необходима при генерации ответа пользователю).
Если поисковый индекс разбит на 10000 кластеров, и каждый кластер имеет доступность 99.9999%, то доступность индекса в целом составит 99%.

bvs Nov 26 2007 at 23:38

У данного метода есть недостаток перед классическими при поиске.
В классическом случае идет ображение к центральному серверу который собирает информацию с большего количества серверов в датацентре по быстрым каналам, выбирает немного лучших и по медленному интернету отдает это пользователю.
Тут информацию при поиске придется собирать с большого количества хостов но по медленным каналам. Думаю так нельзя будет добиться быстрого ответа на запрос.

diamant Nov 26 2007 at 23:59

а исходники программы-клиента открыты? а протокол обмена с сервером?
а то кто знает, чего она там перекачивает..

UFO just landed and posted this here

khim Nov 27 2007 at 00:32

А кто может гарантировать чистоту любой другой модели ? Кто знает что вам сервер отдал ? Тут же важно чтобы результаты, которые есть в базе совпали с тем, что пользователь увидит, когда зайдёт на сайт!

Я другого не понимаю: как они собираются в этом индексе искать ? P2P сети за всё время своего существования эту проблему так и не решили, а у них задача на порядок проще...

freehome Nov 27 2007 at 00:35

время покажет

UFO just landed and posted this here

lapse Nov 27 2007 at 00:38

Мне кажется, что если в ближайшее время и возникнет каккой-либо принципиально новый способ индексации, то реализован он будет именно Big G. А создание неработающей поисковой системы судя по всему не очень грамотной группой энтузиастов - это тупиковый путь.

antono Nov 27 2007 at 00:40

Медленно работает.

Кстати, вот еще пачка разных распределенных поисковиков:

http://www.oreillynet.com/pub/t/74

Есть даже с открытыми исходниками ;)

Kane Nov 27 2007 at 00:43

Идея интересная, вот только не работает.. Нет, возможно индексация и соревновательный дух, присущий многим распределенным вычислениям, присутствуют, но поиск не функционирует. Для меня. реакция на нажатие кнопки/ссылки не должна превышать 10 секунд, иначе я скорее всего уйду. Конечно можно ждать, если оно того стоит..
Но оно не стоит, результатов я не увидел.
Так что оставлю свою мощность работать на OGR :)

dendron Nov 27 2007 at 01:02

Хахаха, название проекта говорящее. =) Потом они перенаправят весь трафик через ИИ Icarus в зоне-51.

simeona Nov 27 2007 at 01:08

Как уже было сказано, не важно кто собирает информацию, поисковый бот Гугла или группа энтузиастов. Важно как ее обработать и отсеять не нужное (выдать нужное)...
И если в вопросе сбора информации (индексации сайтов) M12 радует, то что с обработкой совершенно не понятно. А ведь это намного важнее, чем колличество проиндексированных страниц.

antono Nov 27 2007 at 01:53

Можно придумать какую-нибудь социально рейтингуемую систему. Это сложно, но, как мне кажется, возможно.

simeona Nov 27 2007 at 03:36

Вот это и интересно узнать, а не то, кто и как индексирует страницы.

HEm Nov 27 2007 at 08:37

ручками такие объемы лопатить - это то же самое как воевать с китайцами, они будут размножаться быстрее, чем ты их убиваешь

Klaus Nov 27 2007 at 02:00

Вот же бот сеть будет!

antono Nov 27 2007 at 02:21

А карму зачем придумали? :)

kem Nov 27 2007 at 05:13

Кто-нибудь задумывался, а возможно ли вообще сделать адекватный распределенный поиск по вебу?

Сама идея распределенного поиска мне нравиться, но не могу представить каким образом будут ранжироваться результаты, как обеспечить приемлемое время ответа клиенту, как избежать дублирования в распределенном индексе и выдаче, как быть с обновлением(удалением) контента?

Хорошо - будет в индексе больше документов чем у Гугла, но я сильно сомневаюсь, что поиск по этому массиву будет реализован лучше, если это впринципе возможно. Может разработчики решили: "давайте соберем базу, а после решим как со всем этим хламом полететь"?

nForce Nov 27 2007 at 05:15

Вам еще хочется пользоваться этой сетью после этого ? :)
А еще я полчаса назад сбегал с их базы в Deus Ex :-P

nForce Nov 27 2007 at 05:16

Упс, не заметил, что вверху уже написали :(

CheFF Nov 27 2007 at 08:29

У меня поиск ни в какую не работает(
Подумает, подумает над запросом и выдает ошибку, что сервер не найден.

imhosubb Nov 27 2007 at 08:57

Замечательная идея! И всего-то нужно: а) предоставить свои ресурсы и трафик б) установить себе какаю-то левую софтину в) дождаться когда тоже самое сделают миллионы других гиков. Гугл действительно закатали в асфальт!:)

Rational_Yurij Nov 27 2007 at 11:05

А может речь идет не о распределенном поиске, а о респределенной индексации? Храниться индексы будут все равно в датацентре этой конторы, как там ее. Задача же программы, работающей на стороне клиента: скушать HTML страницу, убрать из нее теги и прочий неинформативный мусор и отослать в "улей" кусочек индекса. Таким образом конторе нужно меньше тратиться на траффик.
Пропиарить свой сайт или внести изменения в индекс, думаю тоже не получится, потому что все грамотно написанные распределенные системы используют избыточность - дают один и тот же кусок работы нескольким машинам, и сравнивают результаты (так делают и Seti, и Boinc, и Folding@home). Если результаты обработки одного и того же куска работы оказываются разные - это настораживает их там в "центре".

Кроме того, сделать людей "причастными к рождению" - это реклама.

zyko Nov 27 2007 at 11:31

есть подобный проэкт под нозванием del.icio.us только основная идея там в тегах, и осмысленном добавлении тега на статью самим пользователем.
Сейчас этот ресурс принадлежит Yahoo.

freehome Nov 27 2007 at 13:37

del.icio.us это сервис хранения закладок (и поиска по ним)
в статье речь идет о поиске по сайтам

ilyily Nov 28 2007 at 01:18

"Проект амбициозный - но потенциал у него есть"

не понял фразы из текста)

v1000 Nov 28 2007 at 11:14

Амбиции - это понты разработчика, а потенциал - это возможности используемой технологии. Я хотел сказать что их понты "закатать Google" вроде не на пустом месте. Смогут или не смогут - другой вопрос...

nblxa Nov 28 2007 at 09:26

Хороший поисковик — это не только и не столько громадный индекс. Это нехилая работа математиков, работающих над алгоритмами подсчета релевантности результатов поиска. В Яндексе этим занимаются математики — доктора наук. Думаю, что у Гугля в этом плане похожий подход.
Потому-то я и считаю, что смысла в этом проекте как в поисковике нет. Скорее всего, они сами это осознают и в итоге продадут свой индекс какому-нибудь Яху за бесценок.

skabbit Dec 29 2007 at 13:35

вбил "viagra" и всё понял.
вообще, идея висит в воздухе давно (YaCa вроде самый старый из подобных проектов), но никто никак не осилит совмещение соцсети (типа digg) с p2p поисковой машиной: репутации пользователей, оценки выдачам (лопата для спама), децентрализированное хранение данных, распределение трафикоёмких процессов и т.п.

Show the best of all time