Комментарии 20
Не надо путать поисковую выдачу и агрегаторы новостей, это будет стратегической ошибкой яндекса.
Или нужно очень-очень аккуратно догадываться из запроса, новость ищут или нет
Мне, как бывшему разработчику Яндекс.Новостей, очень хорошо знакома эта дихотомия :) С точки зрения пользователя разница достаточно прозрачна: агрегатор работает в «беззапросной» схеме, тогда как Поиск отвечает на конкретный пользовательский запрос. При этом поисковая система всё равно должна удовлетворять всем тем же требованиям, что и страница новостного агрегатора: информация должна быть актуальной, источники должны быть авторитетными, а представление — понятным для пользователя.
информация должна быть актуальной, источники должны быть авторитетными, а представление — понятным для пользователя
— эти требования плохо совместимы между собой, продвижение в одном обозначает отступление в другом.
Известно, что самый надежный способ завалить проект автоматизации — это идти навстречу всем пожеланиям клиента.

Я тоже так думаю, но, если посмотреть на любую свежую выдачу, становится очевидным, что её без проблем можно было бы прокачать по всем возможным показателям: всегда можно сделать и более авторитетную, и более свежую выдачу. Так что, конечно, при всех сложностях, связанных с оптимизацией под несколько метрик, важно не забывать, что живым пользователям нужны все компоненты, и нужно их улучшать, чтобы не проиграть в конкурентной борьбе.

НЛО прилетело и опубликовало эту надпись здесь
Да, конечно. В этой статье мы рассмотрели только веб-свежесть, я специально это подчеркиваю, в противном случае статья получилась бы невообразимо длинной :) При этом нужно помнить, что текстовые документы обеспечивают львиную долю потребления свежей информации, а методы, используемые для их ранжирования, применимы и к другим типам контента.
С развитием распознавалок картинок и речь грань стирается. По сути что текст, что видео — это объект с набором атрибутов.
НЛО прилетело и опубликовало эту надпись здесь
В поисковике Яндекса очень не хватает одной кнопки — поиск за год.
Она там есть, в расширенных настройках поиска. Но… недавно пару раз пробовал поиск с временным диапазоном и был неприятно удивлён наличием в выдаче какого-то старого мусора. Пользуясь случаем, вопрос к Яндексу — что пошло не так?

И ещё вопрос — почему так сильно сократилась подсказка с операторами поиска?
https://help.yandex.ru/search/?id=1111313

Простые операторы типа скобок, &, &&, << и т.п. я ещё помню. Но не будут-ли и они удалены, поскольку их нет в текущей подсказке? А пусть и редко используемые, но неплохие операторы поиска «в рамках N слов друг от друга» я не запомнил. Ещё бывает нужно искать страницы со ссылками на заданную. Как-то давно я это делал, а сейчас не могу найти подходящих операторов поиска…
Нет там кнопки — за Год.
Есть за сутки, за 2 недели и за месяц.
Диапазон не предлагать.
Зря я это тут написал. Похоже — прибили всё оставшееся. Придётся искать на утке или гоголе…
А в гугле не хватает поиска за 3 и 6 месяцев. С чего они решили, что сразу за месяцем должен следовать год. Слишком часто есть желание, найти что-то в интервале между годом и месяцем, но нет.
Итак, быстроботу яндекса не хватило 12 часов на то, чтобы найти статью, написанную сотрудниками яндекса, о том, какой у яндекса быстрый быстробот:
http://i.imgur.com/L1HL61p.png
А вот гугл её нашёл:
http://i.imgur.com/r2ghg7k.png

Советую авторам статьи, во избежание позора в следующий раз, просить администрацию добавлять статьи через аддурилку в яндекс.вебмастере.
Привет :) Досадно это признавать, но претензия совершенно по делу. Ведь нельзя просто так написать пост про свежесть и чтобы ничто не пошло не так! :) Действительно, в день публикации испытывали проблемы с индексацией именно в районе Хабра.

К счастью, такое случается редко, а о общих показателях в этом месте намного нагляднее любых слов говорит график Ашманова.
Да вас никто ни в чем не обвиняет, все давно уже знают, что у вас вредительский быстробот: когда по ошибке какую-нибудь чушь выложишь, то она в индексе оказывается ещё до того, как кнопку опубликовать нажмёшь. А вот когда что-то нужное добавляешь, то никогда попадения в быстроботовскую примесь не дождёшься.

Но, само собой, плохое лучше запоминается. Поэтому график от Ашманова к месту.
Так как в итоге «быстробот» так быстро узнает о появлении новой страницы?

В основном — так же, как и большой робот, то есть, по ссылкам. Нельзя выкладывать на поиск документы, если мы не знаем, как по набору ссылок, каждая из которых не закрыта robots.txt, эти документы достижимы. Есть небольшое количество магии, связанной с особенностями свежести:


  1. Детектить нужно очень быстро, поэтому крупные "хабы" — источники хороших свежих страниц — нужно обходить очень часто. Примерами таких хабов могут служить главные страницы СМИ. Некоторые хабы благодаря Яндекс.Новостям мы знаем априори, а некоторые автоматически детектируются как страницы, на которых часто появляются ссылки на "хорошие" документы.
  2. Какие из обнаруженных документов нужно скачать, решает специальная формула, которой приходится работать с очень ограниченным набором факторов, т.к. про новый документ мы часто знаем только одну ссылку и собственно урл. Хорошо работают всякие агрегации по кускам урла (например, мы знаем, что урлы, начинающиеся с lenta.ru, оказываются достаточно посещаемыми). У этой формулы есть еще одна особенность: мы не можем очень много качать с одних и тех же хостов/айпишников, т.к. легко можем устроить дружественному источнику DDoS. Так что формуле приходится каждый раз решать задачу "выбрать не более N лучших документов из M для каждого хоста". Еще бывает так, что страница сама по себе плохая и в поиск вряд ли попадёт, зато с неё есть много ссылок на другие хорошие страницы. Поэтому обучение формул в этом месте можно написать отдельную статью :)
  3. Отобранные документы быстро прокачиваются и часть из прокачанного, еще и на основе контентных факторов (текста, заголовка, картинок и т.п.) попадает в индекс. Документ нужно очень быстро сделать доступным для индексации, поэтому для суперсвежего слоя у нас работает специальная разновидность поиска, которая может очень быстро подтягивать обновления.

Еще есть два интересных момента про быстрый робот:


  1. Нужна снималка дублей, причем понятно, что для нее набор средств очень ограничен — например, какой-нибудь глобальный reduce по шинглам совсем не подходит.
  2. Нужно определять, какие документы на самом деле являются старыми. Бывает так, что документ старый, а ссылку на него мы узнали вот только что — базово нет никакого способа понять, что документ очень старый. Приходится выкручиваться :)
Раньше юзал Яндекс для региональных запросов. А так, по релевантности предпочтительнее по привычке гуголь.
Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.