Pull to refresh

Comments 69

Какие варианты вертикальных поисков есть? Картинки у Рамблера уже есть, у PicSearch куплены.

Видео у Рамблера уже есть, Vision, там поиск есть, но не работает.

Стало быть, поиск по Vision решили сделать?

Как говорится, "счастья вам, женщины!".
У FAST нет никакой особой кластеризации, вроде бы.
Не говоря уже о том, что кластеризация - это такое "модное слово в поиске" 2.0, для тех, кому надоело медитировать на слово 1.0 - "морфология".
UFO landed and left these words here
UFO landed and left these words here
Я что-то не понимаю наверное...

А разве публичная компания с IPO может
скрывать сумму сделки? Помоему это уголовно
наказуемое преступление. Поправьте если я не прав.

могут быть варианты?
Смотря кто в бухгалтерии, как покупатель лицензии указан - раз.
кто там у них указан на ипо, какая орг-я? - два


Вот будет годовой (или квартальный)отчет, они
и напишут "приобретение ПО" - столько-то денег.
А до того - не обязаны.
Вариант#1(оптимистичный)
Rambler мог договориться об очень хорошей скидке, соответственно чтобы не прогибаться под новых клиентов Fast могла настоять о сокрытии суммы в договоре.

Вариант#2(реалистичный)
В Рамблере оптимизируют налоги - одну и ту же сделку вполне реально оформить несколькими легальными способами с совершенно различными налоговыми отчислениями.
Комментарии Ашманова понравились - про "ребят из глобальной компании" очень реалистично.
Нету в Фасте мирового поиска (=мирового индекса) с тех самых пор, как они продал свой веб-поиск (пол-команды, сайт allthweb и собственно поисково-роботную ферму) в увертюру почти три года назад.

Registrant: Overture Services Inc. (DOM-352367) 74 N. Pasadena Ave., 3rd Floor Pasadena CA 91103 US

А Увертюра -- это Яху. Сайт alltheweb принадлежит yahoo и поиск там стоит yahoo-вский.
Придется вслед за Ильей повторить - у FAST нет такой технологии, как веб-поиск.
Вот что у них действительно есть - это поиск по видео и аудио. В качестве примера - новость годичной давности - http://www.searchengines.ru/news/archive…
Сергей, ты не путай публику. Технология веб-поиска есть у любого игрока рынка корпоративных искалок. Включая Верити, Автономию и других. Просто потому, что это не такой уж фокус, когда собственно поисковик для больших баз уже есть.

Всегда, когда продают корпоративную искалку, она должна поддерживать многотерабайтные базы, инкрементное индексирование, 200-300 форматов, а также индексировать корпоративные сайты и документы на вебе. Большинство этих искалок позволяют индексировать и тысячи сайтов вовне корпоративной сети.
Борьбу со спамом, PageRank и прочие тонкие штуки можно пока опустить.

А вот большая база по Вебу - это действительно вопрос. Её нет у фирм, которые продают корпоративные решения, поскольку их бизнес другой, с бурной лотереей интернет-проектов не связанный, а большую базу набрать и поддерживать сложно и очень дорого.

Что касается поиска по видео и аудио, FAST этим хвалится давно, но что это значит - неясно. Потому что распознавание речи на больших базах - это, по-моему, пока что туфта. Есть в таких задачах, правда, тот эффект, что можно распознавать с низким качеством, скажем 5-10% и уже будет можно искать по распознанному. Но всё равно что-то мне пока не верится.
Игорь, ну не мне же тебе объяснять разницу между корпоративной искалкой, которая ищет по многотерабайтной базе документов сотни разных форматов, и веб-поиском. Ведь главный фокус состоит в том, что эта самая много... база - чистая, а веб-искалка должна искать по грязному вебу и никак тут нельзя опускать борьбу со спамом, учет цитируемости, подавление дубликатов и другие "тонкие штуки".
Да, понятно, что технология поиска Google в основном одинакова и в веб-поиске, и в Google Desktop, и в Google Mini. Как ты, вероятно, догадываешься, поиск Яндекса по блогам или Персональный поиск принципиально мало отличаются от Большого поиска по вебу и друг от друга. Но разница все же есть и она критична.
Я уж не говорю о том, что такого зверя, как отчуждаемый веб-поиск, даже FAST не изобрел :).
Нет, Игорь, человечество нифига не осилило. Это ты нашел компромисс между своей идеей создания веб-поиска по коллекции отобранных документов (а не сплошняком по грязному вебу) и расходами на создание такой коллекции. Не берусь судить, на каком этапе количество маленьких коллекций перерастет (если перерастет) в качество одной большой. Но отчуждаемость-то тут где? Арендуемый сервис, персональные кабинеты, все, что может пользователь - добавить адрес сайта.
а) ты почитай внимательно, что там можно. "Всё, что может пользователь" - это добавить точки входа, указать глубину индексации, период индексации, квоты выкачки, задать свои, читабельные, имена сайтов и страниц, и т.п. Скоро выкатим новую версию, там будет возможность вести свой каталог, выдача будет тоже по рубрикам.
В следующей версии дадим возможность влиять на ранжирование, статистику запросов и т.п.
Так что возможностей там много, управляешь, как своим, а вот головной боли по установке нет совсем.

б) Что же касается установки поиска к себе - в чём тут такая уж доблесть? Это всегда ведёт к проблемам и острой потребности в техподдержке. Не будем далеко ходить за примером: ты вот Яндекс ставил на SearchEngines, тебе понравилось?
Большинству моих знакомых, кто пробовал - не понравилось. Ставится трудно, а техподержки практически нет. В этом смысле, "отчуждаемым" Яндекс.Сервер не является, хотя формально это софт "в коробке". При том, что в большинстве случаев людям нужен даже не вебпоиск, а скорее простой поиск по сайту.
Это я не к тому, чтобы наехать на Яндекс. Просто ставить к себе поиск - не самая лучшая идея.

А что вообще ты понимаешь под "отчуждаемым" ПО - возможность вот непременно установить на свой сервер? А зачем она?
У нас она есть, так же как у Гугля или FASTа, только это мало кому нужно, только корпоративным клиентам, за $20-40К, с внедрением и т.п. Мы в АиП умеем этим заниматься, вот, например, наш клиент, у него именно веб-поиск по всем его конкурентам, несколько сотен сайтов. Да возьми хоть Спамтест, который стоит у массы крупняка в России, Спамтест как раз работает "из коробки", не требует настроек и т.п.
Так что такое отчуждаемый софт, мы себе представляем. Но в любом случае это тяжёлый бизнес и немножко уже вышедший из моды. Хостинг сервиса - совершенно другое дело.
Вообще сейчас мир быстро движется от коробочного софта к "software as a service". То есть к хостингу сервисов и приложений.
А уж массового пользователя поисковика можно удовлетворить только хостингом этого поисковика.
"Всё, что может пользователь" - это добавить точки входа, указать глубину индексации, период индексации, квоты выкачки, задать свои, читабельные, имена сайтов и страниц, и т.п.
И так по каждому сайту?!! Такой подход резко сужает область применения подобной схемы и ни в коей мере не становится альтернативным выходом для "массового пользователя поисковик". Кроме поиска по конкурентам трудно представить другие юзкейсы.
А "отчуждаем" поиск или нет - это всего лишь вопрос определения, как по мне, так и "Персональный поиск" и Яндекс.Сервер и Google Desktop Search являются отчуждаемыми, т.к. по степени "грязности" некоторые персоналки и корпоративные сети еще могут дать фору вебу.
Задавать по каждому сайту необязательно. Можно пакетом загнать список сайтов и всё. Однако по нашему опыту, людям нравится аккуратно разбирать сайты и настраивать параметры индексирования. От этого сильно зависит качество ИХ поиска. Для многих узких предметных областей автору поисковика достаточно 10-20 сайтов, для некоторых достаточно сотни. Скажем, у нашего тренера по айкидо теперь есть поиск по школам, залам, семинарам по айкидо Москвы и Петербурга, всего под 100 сайтов. Больше и не нужно, все нужные вещи можно найти, никаких дорвеев нет. А тщательно вести свои 100 сайтов при хорошей диагностике (перестало скачиваться, качается мало и т.п.) - не так уж трудно.
Для создания большого поисковика, конечно, таких авторов нужны десятки тысяч, но это дело наживное.
А если появится 10 или 20 новых, хороших сайтов про айкидо - как ваш тренер о них узнает? Или вдруг ему захочется поискать что-нибудь про таэквондо - опять идти в Google\Яндекс\Рамблер?
А почему бы не пойти в Гугляндекс, что в этом зазорного? Ну вот есть поисковики для обработки веб-грязи, этакая сырьевая промышленность. Почему не пользоваться её продуктом для производства своей продукции высокой очистки?

Если же поисковик про айкидо станет популярен в узких кругах, то в нём пойдёт самостоятельная регистрация тематических сайтов.
И так по каждому сайту?!! Такой подход резко сужает область применения подобной схемы и ни в коей мере не становится альтернативным выходом для "массового пользователя поисковик". Кроме поиска по конкурентам трудно представить другие юзкейсы

Ну вот у меня давно чешутся руки (но не доходят) сделать поисковик по сайтам о цифровом фото и цифровой обработке изображений.
Навскидку, там пара десятков сайтов, пара десятков форумов и несколько ньюсгрупп. Все, 99% информации будет покрыто.
Да, это работа, но вполне подъемная.

Или, извиняюсь, поиск по барахолкам на заданную тему. Ну сколько тех барахолок - десяток будет ?
Ну, если Вы уверены в ограниченности зоны поиска, соглашусь, что ПП может быть хорош, хотя ...
Навскидку, там пара десятков сайтов, пара десятков форумов и несколько ньюсгрупп.
Проиндексировать 1 хороший форум - та еще задача, у "неперсональных" поисковиков не всегда получается:
http://www.yandex.ru/yandsearch?serverur… - 94K страниц
http://search.rambler.ru/srch?sort=0&fil… - 96K страниц
http://www.google.com/search?&q=allinurl:forum.searchengines.ru/+site:forum.searchengines.ru - 297K страниц.
Кто-то что-то недоиндексировал.
Да, то что к форумам нужен особый подход - мы понимаем еще
с Рамблеровских времен. В данной инкарнации - пока не сделали.
Конкретно в данном случае очень легко посчитать, что на форуме:
1 главная страница;
несколько десятков страниц разделов;
~82 тысячи страниц тем - при дефолтной выдаче по десятку сообщений на страницу, причем часть нельзя проиндексировать, ибо это закрытый форум, например.
~19 тысяч страниц профилей пользователей.
Итого - ~100K страниц, которые действительно что-то содержат.
Вероятно, кто-то что-то переиндексировал :).
Из них в архиве - больше тысячи.
Похоже, кто-то не умеет склеивать нечеткие дубли :).
Хорошо. Усложним запрос, чтобы перейти из области неосязаемо больших чисел к тому, что можно пересчитать по пальцам.
Яндекс нашел 1 топик
Google - 4 ветки в форуме и 2 в архиве.
И почему мне до сих пор кажется, что кто-то "недоиндексирует"?
Вероятно, не креститесь, потому и кажется :).
Еще раз - абсолютно точно на форуме существует порядка 100к страниц, которые можно проиндексировать - с уникальным контентом. Добавьте сюда архив - копию форума, фактически, с очень легким дизайном и статическими урлами - и получите еще 70к. Таким образом, на примере отдельно взятого форума мы видим, что Google показывает явно завышенное число результатов поиска - считая там дубли (а весь архив это дубль, причем на 80% - довольно четкий), мусор и т.д.
Так что вам может казаться, что кто-то недоиндексирует, но факт остается в том, что кто-то индексирует больше, чем есть в наличии.
Ткнул пальцем в небо и сразу напоролся на запрос, где Гугл всего в шесть раз больше нашел, чем Яндекс ... Вот ведь не повезло!
Еще раз - в конкретном случае Google проиндексировал примерно в два раза больше, чем есть на самом деле. Можете считать это признаком качества поиска - найдет даже то, чего нет.
Давно известно, что верить цифрам результатов, показываемых Гаглом, нельзя.

Он их завышает зачастую на порядок - потому что считает "примерно", и учитывает весь спам, дубликаты, мусор и т.п. "supplemental results".
Просто "Гагл" менее самонадеян - склеивает и чистит как умеет все же оставляя посетителю шанс ("repeat the search with the omitted results included") самому что-то искать (и находить!) в "дубликатах".
Так я о том и пишу! Он честно показал Вам 48 уникальных с его точки зрения документом, а дальше самые недоверчивые "can repeat the search with the omitted results included". Пускает, как обычно, до start=990 и 353`000 документов он нашел или 1010 - я проверить, к сожалению, не могу. Но мне кажется, что "сырых" документов там явно больше чем 48.

P.S. Кстати, а почему их должно быть именно 48, а не 80`805?
Вот и я думаю, почему 48, когда пишут про 353 тысячи.
IMHO по этому запросу Вам виднее сколько существует уникальных документов - 48, 81`234 или 346`000.
Ужас... И это Пишут разработчики Яндекса...

Просто сразу в лоб:

a). Все поисковые машины считают кол-во результатов "примерно",
то, что у Вас написано число с точностью до числа это введение
людей в заблуждение.

b). На текущем этапе жизни Гугл единственный, кто реально очень неплохо клеит нечеткие дубли. Яндексовский веб-поиск этого не делает вообще.
Пример - запрос "webalta" 6+7 позиции, просто даже снипет одинаковый.

Вообще очень забавно наблюдать как yandex (gray,kukutz,iseg и прочие товарисчи) общаются с ex-rambler (ashmanov,lexa) :)
"Ужас... И это Пишут дорвейщики..."

Я не разработчик.

а) Да, все считают примерно, но используют очень разные подходы.
То, что у Гагла число написано с учётом спама и дубликатов - это гораздо большее введение людей в заблуждение.

б) Мы уже видели, что на запрос webalta выдаёт webalta. Не с таким бревном в глазу, простите.
kukutz, вам наверное сложно это понять,
но от того, что наши партнеры сливают нам
трафика больше чем на Яндексе, я не становлюсь
дорвейщиком :)
Видите, как хорошо - Вы не дорвейщик, я не разработчик.

Только Вы всерьёз написали, а я в кавычках.

Такие дела.
> Гугл единственный, кто реально очень неплохо клеит
> нечеткие дубли. Яндексовский веб-поиск этого не делает вообще

ой? а как вы это поняли?

Мы иногда чего-то на эту тему публикуем

Вот например http://www2002.org/CDROM/poster/187/

Или вот здесь: http://www.rcdl2006.uniyar.ac.ru/ru/doc/…

Там будет написано, что показатели у G = 88.4% "уникальных" в "чистой" выдаче (то есть без &filter=0) и у Y = 90.1% "уникальных" в "чистой" выдаче (то есть без &rd=0).

Показатели близкие, но существенно более объективные чем если судить по одном запросу.
Подобных публикаций очень много,
однако работает это только у них более-менее.
по единственному наблюдаемомоу вами запросу?
может быть это религиозное ощущение?
UFO landed and left these words here
Почему же не будет? Это просто будет стоить денег. Но меньших, чем покупка того же самого "в коробке". Потому что в стоимость коробки ещё входит высокая стоимость отчуждения (документация, техподдержка, тестирование, инсталлятор, средства управления и т.п.).

Что касается приватности, то какая там, интересно, приватность в публичном поисковике? Что там секретить и главное, от кого - от хостера? А почту Вы не боитесь хранить у хостера?
Вас, скажем, не удивляет, что у SalesForce, самой известной CRM на Вебе, примерно 300 тысяч корпоративных клиентов, которые хранят где-то там на сети, у третьего лица, данные о всех своих клиентах? Куда уж приватнее, казалось бы - базы данных по клиентам, то, что обычно сейлы воруют при увольнении. И ничего, хранят и не жужжат.
UFO landed and left these words here
Лень, я не знаю, будет она или нет, но у меня в августе Новотека выкачала 250 тысяч страниц с форума. И не унимается, кстати.
UFO landed and left these words here
Я не вижу такой уж проблемы с парой миллионов.
У одного из наших пользователей порядка полумилиллиона документов
и он все не унимается, добавляет сайты. Будет пара миллионов -
значит будет пара миллионов.

По выходу из беты - такие объемы скорее всего не будут бесплатными,
но формы этой не-бесплатности могут быть разными. Деление денег от
контекстной рекламы, например.
UFO landed and left these words here
Ну как-то нет задачи всех на один горшок. Казалось бы,
горшки недорогие, а на дворе сейчас не 2002-й год

Неужто у кого-то сейчас есть проблема с железом ? оно
же моментально окупается в любом разумном проекте
Мы куда-то не туда с тобой заехали. Изначально речь шла о том, что:
1. У FAST`а нет веб-поиска и Рамблер не может у него его купить.
2. Поиск по вебу требует немного других решений по сравнению с чистыми коллекциями - поэтому нельзя взять корпоративную искалку и получить из нее веб-поиск.
Если подытожить - Рамблер не будет ничего менять в веб-поиске в связи с покупкой машинки у FAST.
Да, скорее всего так. Хотя а) что-то у них там есть, б) никто не мешает прикрутить свою веб-обвязку (как пишет ниже Илья про Fireball) поверх базовой поисково-индексирующей машины.
Ну, пока паники или уныния среди разработчиков поисковика в Рамблере не видно, увольнять не собираются, а даже скорее наоборот, как я понимаю.
Попытаюсь вас помирить следующим примером и историей:

Кусок fast-а, как известно, принадлежит Lycos-у и vice versa. Поэтому пару лет назад, принадлежащий Lycоs-у, и до того работавший на бвзовом движке altavista поисковик fireball.de (некогда был 2-й - 3- й в Германии) пересел на базовый поиск fast.

Но это именно только собственно индексирующая машинка - полнотекстовый индекс и все. Все ранжирование, дубли, стат.ранк, ссылки, зеркала, спам, линковвая накрутка и тп и тд - вне движка. Самописное. И оно по размеру БОЛЬШЕ движка. Движок просто позволяет (как кажется менеджерам) экономить на железе и надежности.

Недостатки такого подхода: (1) чужого монстра на самом деле труднее укротить, чем своего. (2) Все нюансы, извлекаемые при индексации недоступны (а они могут понадобиться, системы-то все живые). (3) Все нюансы нужные в ранжировании тоже недоступны (и они тоже могут понадобиться в силу все той же "живости" веба).
Верно. Именно поэтому я совершенно не понимаю, зачем Рамблеру чужой движок. Либо он вместе с базами чего-там мультимедийного, копирайтного, со всей легальной и партнёрской инфраструктурой, либо с какой-то совершенно волшебной технологией распознавания речи и изображений. НИ в то, ни в другое мне что-то не верится.
Есть ещё одно предположение: Рамблер хочет, для влияния на курс акций, объявить, что будет продавать корпоративный поиск своим клиентам и тем зарабатывать. Типа, диверсификация, выход на рынок ПО и т.п.
Для наивных инвесторов это может показаться разумным бизнес-шагом (как же - будет больше денег, диверсифицированный бизнес и прочее). То есть для них это будет очередная хорошая новость о том, что Рамблер развивает бизнес и собирается заработать ещё больше денег. Гугл же продаёт свой поисковичок из тех же соображений, хотя, по-моему, это совершенно провальный проект.

Для тех, кто понимает, это будет выглядеть грубой ошибкой (потому что Рамблер ни разу не умеет продавать и внедрять ПО). Но этих понимающих инвесторов сильно меньше.
В итоге мы оказались полностью друг с другом согласные :).
В действительности мы уже одну такую сделку видели и обсуждали - когда РБК покупало движок Альтависты.
Чтобы курс акций подрос. Да-да.
Чтобы курс акций подрос. Да-да.
Улыбнула фраза "Снизу довольно плотно поджимает «Гугл»"... Так и хочется сказать им - очнитесь, хватит спать!
Имхо, здравая мысль отдать на аутсорсинг разработку движка. Рамблеру давно не хватало "глотка свежего воздуха"... трупные зловония не самый лючший парфюм для поисковика... :))
Only those users with full accounts are able to leave comments. Log in, please.