alizar 13 дек 2010 в 19:21

Инфраструктура Blekko: 800 серверов, свой краулер и модули Perl

2 мин

1.3K

Поисковые технологии*

+40

Комментарии 24

prairie_dog 13 дек 2010 в 19:40

Если они сделают социальный поисковик с хештегами (уже есть), с лентой(анализ поисковых запросов юзера и выдача ему новых страниц, аля лента в твитере), то может и прокатит. Ну и для сеошников примочки, что бы пиарили…

Blackside 13 дек 2010 в 20:22

800 серверов — не слишком ли много для начала ?)

ChemAli 13 дек 2010 в 22:52

А сколько надо?

Masterkey 13 дек 2010 в 20:29

а механизмы релевантности?

blekko.com/ws/http:%2F%2Fhabrahabr.ru%2F+/urlseo
frequent words: vogue (6) mercurial (6) peertopeer (5) apache (5) kinect (5) javascript (4)

вот такие мы

proxor 14 дек 2010 в 07:57

Ну так последние топики посмотрите. Всё верно — куча статей про плеер из журнала Vogue, переводы про Mercurial, новости про торренты, выход ASF из комитета Java, необычные применения Kinect, ну и регулярные топики про javascript.

TravisBickle 13 дек 2010 в 20:34

Эх… хочу туда на работу…

niksite 13 дек 2010 в 21:19

Ага, админом. Как в известном анекдоте.

niksite 13 дек 2010 в 21:18

> Новый поисковик Blekko начал работу полтора месяца назад и вполне естественно привлёк к себе пристальное
> внимание экспертов. Не только благодаря инновационному интерфейсу и слэштегам, но и в принципе

Ой, какой приторный текст. Это вы стебетесь так, или на полном серьёзе таким языком говорите?

> Секрет успеха такого неординарного решения — Perl

Довольно странный выбор. Сейчас всё больше на python каком пишут, а на perl разве что дописывают то, что десяток-другой лет назад создавалось.

BTW, удачи вам. Пусть гугл не слишком расслабляется.

-11

dom1n1k 13 дек 2010 в 21:22

Будем надеяться, что их ждет больший успех, нежели cuil.com.
Который был довольно многообещающий и амбициозный поначалу.

Q2W 13 дек 2010 в 21:51

Perl рулит

scam 13 дек 2010 в 22:07

В CPAN достаточное количество тормозных модулей. Надеюсь они не юзают LWP для crawling'a :)

BigD 13 дек 2010 в 22:12

Гм. Хороший RAID ускоряет работу HDD. О чем это они?

NARKOZ 13 дек 2010 в 22:54

Напомню, что vkontakte также не использует RAID

aazon 14 дек 2010 в 01:35

Напомню что на вопрос а где вы храните информацию, Дуров ответил: «на жестких дисках»

NARKOZ 14 дек 2010 в 01:48

RAID не используется, proof

errno 19 дек 2010 в 18:52

Может имели в виду, что не используют RAID с избыточностью (1, 5 и тд). Например, обединяют диски в тома средствами LVM, но все равно не понятно зачем CPU грузить.

naim 13 дек 2010 в 22:38

Интересно что они юзают для краулинга.Наверняка AnyEvent или что-то более низкоуровневое на базе EV

Qk4l 14 дек 2010 в 00:06

Серверы в децентрализованной сети обмениваются данными, так что в каждый момент времени копия информационных блоков содержится на трёх машинах. Как только диск или сервер выходит из строя, остальные серверы сразу это замечают и начинают процесс «лечения», то есть дополнительной репликации данных с потерянной системы

На базе чего это реализовано?

Qk4l 14 дек 2010 в 00:51

Серверы в децентрализованной сети обмениваются данными, так что в каждый момент времени копия информационных блоков содержится на трёх машинах. Как только диск или сервер выходит из строя, остальные серверы сразу это замечают и начинают процесс «лечения», то есть дополнительной репликации данных с потерянной системы.

На базе чего это реализовано?

НЛО прилетело и опубликовало эту надпись здесь

VCoder 14 дек 2010 в 02:28

Меня действительно удивило это:

The real shocker was the strftime() C function's bad behavior. They were tracking down an intermittent performance problem and discovered that it would sometimes access up to 50 files from disk, shoving a stick in the spokes of any application that relied on fast response times thanks to the unexpected disk seeks this causes. It turns out that the function will load information from locale files to help with its formatting job, and even worse it will periodically recheck the files to see if they've changed. This may not sound like much, but for a programmer it's as unexpected as discovering your grandmother moonlighting as a nightclub bouncer.

В вольном переводе это означает, что Сишная функция strftime() обращается к файлам (до 50 файлов!) для выполнения преобразования.
Более того, данная функция периодически проверяет не изменились ли эти файлы.

seriyPS 14 дек 2010 в 16:06

Ну видимо настройки локали просматривает всякие. Не знаю, доступ к часам тоже через файл в *nix происходит?

seriyPS 14 дек 2010 в 16:09

а, черт, там так и написано. Но вообще странно почему аж 50 файлов…

Shtirlits 15 дек 2010 в 19:48

интересно, хот в одном поисковике будет когда нибудь реализован полноценный поиск по регулярным выражениям?? у этих перл, могли бы для эксперимента прикрутить…

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

Инфраструктура Blekko: 800 серверов, свой краулер и модули Perl

Комментарии 24

Публикации

Истории