Как стать автором
Обновить

Комментарии 24

Если они сделают социальный поисковик с хештегами (уже есть), с лентой(анализ поисковых запросов юзера и выдача ему новых страниц, аля лента в твитере), то может и прокатит. Ну и для сеошников примочки, что бы пиарили…
800 серверов — не слишком ли много для начала ?)
А сколько надо?
а механизмы релевантности?

blekko.com/ws/http:%2F%2Fhabrahabr.ru%2F+/urlseo
frequent words: vogue (6) mercurial (6) peertopeer (5) apache (5) kinect (5) javascript (4)

вот такие мы
Ну так последние топики посмотрите. Всё верно — куча статей про плеер из журнала Vogue, переводы про Mercurial, новости про торренты, выход ASF из комитета Java, необычные применения Kinect, ну и регулярные топики про javascript.
Эх… хочу туда на работу…
Ага, админом. Как в известном анекдоте.
> Новый поисковик Blekko начал работу полтора месяца назад и вполне естественно привлёк к себе пристальное
> внимание экспертов. Не только благодаря инновационному интерфейсу и слэштегам, но и в принципе

Ой, какой приторный текст. Это вы стебетесь так, или на полном серьёзе таким языком говорите?

> Секрет успеха такого неординарного решения — Perl

Довольно странный выбор. Сейчас всё больше на python каком пишут, а на perl разве что дописывают то, что десяток-другой лет назад создавалось.

BTW, удачи вам. Пусть гугл не слишком расслабляется.
Будем надеяться, что их ждет больший успех, нежели cuil.com.
Который был довольно многообещающий и амбициозный поначалу.
В CPAN достаточное количество тормозных модулей. Надеюсь они не юзают LWP для crawling'a :)
Гм. Хороший RAID ускоряет работу HDD. О чем это они?
Напомню, что vkontakte также не использует RAID
Напомню что на вопрос а где вы храните информацию, Дуров ответил: «на жестких дисках»
RAID не используется, proof
Может имели в виду, что не используют RAID с избыточностью (1, 5 и тд). Например, обединяют диски в тома средствами LVM, но все равно не понятно зачем CPU грузить.
Интересно что они юзают для краулинга.Наверняка AnyEvent или что-то более низкоуровневое на базе EV
Серверы в децентрализованной сети обмениваются данными, так что в каждый момент времени копия информационных блоков содержится на трёх машинах. Как только диск или сервер выходит из строя, остальные серверы сразу это замечают и начинают процесс «лечения», то есть дополнительной репликации данных с потерянной системы


На базе чего это реализовано?
Серверы в децентрализованной сети обмениваются данными, так что в каждый момент времени копия информационных блоков содержится на трёх машинах. Как только диск или сервер выходит из строя, остальные серверы сразу это замечают и начинают процесс «лечения», то есть дополнительной репликации данных с потерянной системы.


На базе чего это реализовано?
НЛО прилетело и опубликовало эту надпись здесь
Меня действительно удивило это:

The real shocker was the strftime() C function's bad behavior. They were tracking down an intermittent performance problem and discovered that it would sometimes access up to 50 files from disk, shoving a stick in the spokes of any application that relied on fast response times thanks to the unexpected disk seeks this causes. It turns out that the function will load information from locale files to help with its formatting job, and even worse it will periodically recheck the files to see if they've changed. This may not sound like much, but for a programmer it's as unexpected as discovering your grandmother moonlighting as a nightclub bouncer.

В вольном переводе это означает, что Сишная функция strftime() обращается к файлам (до 50 файлов!) для выполнения преобразования.
Более того, данная функция периодически проверяет не изменились ли эти файлы.
Ну видимо настройки локали просматривает всякие. Не знаю, доступ к часам тоже через файл в *nix происходит?
а, черт, там так и написано. Но вообще странно почему аж 50 файлов…
интересно, хот в одном поисковике будет когда нибудь реализован полноценный поиск по регулярным выражениям?? у этих перл, могли бы для эксперимента прикрутить…
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации