Открыть список
Как стать автором
Обновить
  • по релевантности
  • по времени
  • по рейтингу

Google согласилась платить французским новостным сайтам за трафик

Поисковые технологииЗаконодательство в ITПоисковая оптимизация

Google подтвердила заключение соглашения с французской новостной индустрией. Оно «устанавливает правила, в рамках которых будет заключать индивидуальные лицензионные соглашения» со СМИ. В рамках этих соглашений статьи будут индексировать в News Showcase от Google, а компания будет платить издателям за трафик.

Переговоры велись после утверждения директивы ЕС об авторском праве в 2019 году. Она касается так называемых «смежных прав» на контент. Google выступала против подобных соглашений.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Просмотры2.2K
Комментарии 6

Принят стандарт Sitemaps Auto-Discovery

Поисковые технологии
Крупнейшие поисковые сайты Google, Yahoo, Ask и MSN объявили о принятии единого стандарта для хранения файла Sitemap XML. Веб-мастерам рекомендуется добавить такую строчку в robots.txt:

Sitemap: www.example.com/sitemap.xml

Функция Auto-Discovery позволяет сэкономить время: поисковый робот теперь будет сам находить файл Sitemap на сайте, так что теперь не нужно его вручную закачивать в каждый поисковик.

Как объясняется на сайте Sitemaps.org, единый стандарт должен облегчить процесс индексации сайта поисковыми системами. С помощью этого XML-файла веб-мастер прямо указывает поисковику, какие страницы на сайте нужно индексировать. Таким образом можно существенно сэкономить исходящий трафик, а часто обновляемые страницы индексируются чаще.
Читать дальше →
Всего голосов 67: ↑67 и ↓0 +67
Просмотры407
Комментарии 12

Google пытается проиндексировать Невидимую Сеть

IT-компании
Разработчики из подразделения краулинга и индексации (Crawling and Indexing Team) сообщили о важном эксперименте, который начался совсем недавно. Они осуществили апгрейд краулера и начали испытывать технологию интеллектуальной обработки HTML-форм. После апгрейда робот-краулер должен научиться получать скрытые URL’ы и веб-страницы, которые генерируются в ответ на обработку форм на различных сайтах и которые невозможно получить иным путём.

На практике технология работает так: при встрече с элементом обработчик форм осуществляет ряд пробных запросов. Для текстовых полей в качестве запросов автоматически выбираются слова с этого самого сайта, на котором находится форма. Значения чекбоксов и выпадающих меню берутся непосредственно из кода страницы. После этого программа пытается обработать полученный URL. Если страница действительно содержит некий контент, то её отправляют на индексирование в общий поисковый индекс.

Несмотря на кажущуюся простоту и очевидность, обработка HTML-форм является очень важным шагом по вытаскиванию на свет так называемой «Невидимой Сети» (Deep Web) — огромных массивов информации, которые скрываются в больших базах данных, открытых миру через интерфейсы HTML-форм. Это юридические БД, разнообразные справочники (телефоны, адреса, цены) и прочие массивы данных. По некоторым оценкам, Невидимая Сеть содержит сотни миллиардов страниц и охватывает 90% всего содержимого интернета. Нужно заметить, что именно там скрывается самый ценный контент, который до сих пор не доступен через стандартные поисковики.
Читать дальше →
Всего голосов 46: ↑44 и ↓2 +42
Просмотры1.4K
Комментарии 75

Я.RSS

IT-компании
Яндекс выпустил специальный плагин для популярных форумных систем (PHPBB 3.x, vBulletin® 3.x, IP.Board 2.x), который позволяет добиться индексации ВСЕХ страниц вашего форума Яндексом.

Я.RSS стал первым opensource-проектом из серии Яндекс.Нано.

Всем форумным администраторам быстро скачивать и тестировать :)
Всего голосов 60: ↑56 и ↓4 +52
Просмотры246
Комментарии 27

24 способа, увеличивающих вероятность индексации сайта

Чулан
Далеко не все поисковые сервисы быстро и эффективно индексируют новый ресурс в Интернете. «Зубры» типа google или yahoo все схватывают на лету, надо просто немого подождать. При этом объем проиндексированного контента у них достаточно высокий. Множество поисковиков рунета (rambler, aport, altavista), а также майкрософтовские livesearch и msn тоже сами индексируют новый сайт.
Проблемы иногда возникают с индексацией в mail.ru, и его детище gogo, а также с Яндексом. Из индекса Яндекса сайты иногда пропадают, число проиндексированных поисковиком также часто меняется.
Cледует также отметить, что индексировать то может и индексируют поисковики, но если проиндексированная страница будет находиться на 10ой странице поиска, то вряд ли на нее кто-то перейдет. Разве что самый упорный. Поэтому особенно актуален вопрос именно эффективной индексации. О ней и вообще об индексации пойдет речь. Так как ориентация статьи сделана в основном на русскоязычный сегмент Интернета, то акцент слегка смещен в сторону Яндекса.
Читать дальше →
Всего голосов 36: ↑28 и ↓8 +20
Просмотры3.4K
Комментарии 18

Алгоритмы поиска, обратный индекс — Часть 1

Чулан
image
C этой статьи я начинаю цикл статей по SEO, в которых будет теория, практика и советы. Начнем естественно с азов. В материале вкратце описываются алгоритмы, по которым современные поисковые системы осуществляют поиск, как проходит индексация, какие математические модели используются при поиске документов.


Что вы узнаете?


Алгоритмы поиска. Что представляет из себя индексация, инвертированный индекс. Математические модели, используемые современными поисковыми системами.
Узнать больше
Всего голосов 81: ↑45 и ↓36 +9
Просмотры5.4K
Комментарии 48

Fly AJAX — пишите меньше, имейте больше. Нестандартный AJAX и индексация поисковиками.

Ajax

Обсуждение предыдущей статьи было бурным. Самые ярые любители jQuery, Mootools кричали зачем мол нужен другой велосипед.
В данной статье мы рассмотрим использование техники Fly AJAX. Это одна из нескольких функциональных возможностей, которые не реализованы в ранее указанных больших (и мною уважаемых) фреймворках. Также, в данной статье, мы рассмотрим принципы правильного проектирования и построения сайтов для хорошей индексации с применением AJAX технологии.
Читать дальше →
Всего голосов 91: ↑80 и ↓11 +69
Просмотры4.8K
Комментарии 207

Сайт требует регистрацию? Используйте Google

IT-компании
Перевод
Это немного сокращенный перевод статьи из блога Google Operating System о том, как работает индексация закрытого контента. Возможно, данная вещь давно известна, тогда считайте эту заметку ненужной.

Некоторые сайты выдают различный контент в зависимости от того, с какой страницы посетитель осуществил переход. Новостные сайты, такие как New York Times, открывают многие статьи только своим подписчикам, но делают исключение, если посетитель перешел со страницы поиска Google и других популярных поисковиков.

У Google есть фича, которая называется first click free для сайтов, требующих подписку. Она разработана для защиты вашего контента и одновременно предоставления возможности индексации. Чтобы реализовать First Click Free, веб-мастер должен позволить всем пользователям, кто нашел вашу страничку через Google, видеть полный текст документа без необходимости регистрации или подписки.

Однако, несмотря на то, что первичный вход на сайт свободный, когда пользователь переходит по внутренним ссылкам, сайт потребует регистрацию. Это особенно неудобно для ресурсов вроде nytimes.com, которые разбивают большую статью на страницы для увеличения числа просмотров.

Обойти это можно очень просто – скопировать ссылку на страницу, к которой у вас нет доступа, в поисковую строку Google и затем перейти по первому результату поиска. Если Google не проиндексировал эту страницу можно использовать SearchWiki для добавления страницы в список результатов поиска: убедитесь, что вы залогинены в свой Google-аккаунт и щелкните «Add a result» внизу страницы с результатами поиска:

image

В комментариях к оригинальной статье указывается более простое решение — использовать расширения RefSpoof или RefControl для Firefox и указывать в качестве реферера www.google.com
Всего голосов 39: ↑35 и ↓4 +31
Просмотры1.5K
Комментарии 19

multi_get — качаем сайты оптом

Чулан
Топик будет интересен тем, кто хочет индексировать Интернет-сайты на предельных скоростях (самодельные поисковики, анализы частоты слов, сервисы по анализу html'я и т.п.) Threading тут не дает предельных скоростей, urllib — тем более… Решение здесь в использовании асинхронных запросов из libcurl.

Скорость?
На 500MHZ (очень-очень слабенький VPS) — около 100 URLов в секунду (100 соединений, 2 процесса).
На Amazon EC2 «High-CPU Medium Instance» (.2$/час) ~ 1200 URLов в секунду (300 соединений, 5 одновременных процессов). В один процесс до 660 URLов в секунду.

Для выкачивания множества сайтов и дальнейшей обработки, хочу поделиться одной своей полезной функцией — multi_get — по сути она — удобный wrapper для CurlMulti (libcurl), модифицированный из их примера CurlMulti.

>>> urls = ['http://google.com/', 'http://statcounter.com/']
>>> res = {}
>>> multi_get(res, urls, num_conn = 30, timeout = 5, percentile = 95)
>>> res['http://google.com/']
'<html><title>Google....
# тут обрабатываем res, который содержит HTML всех для URL'ок
Читать дальше →
Всего голосов 16: ↑14 и ↓2 +12
Просмотры874
Комментарии 11

Индексация Ajax сайтов

Чулан
Может кто-нибудь подсказать, каким образом проиндексировался inthecity.ru?
С отключенным javascript он не работает. Он отдает Яндексу, что-то отличное, от того, что получают пользователи?

Кто что вообще делает в таких случаях?

Решение писать сайт так, чтобы он работал с отключенным js только для поисковиков, не айс, но как я понимаю другого решения нет?
Всего голосов 27: ↑17 и ↓10 +7
Просмотры251
Комментарии 44

Обратная связь? Без надобности

IT-компании
Сначала небольшое вступление.

Один из моих личных творческих проектов представляет собой сайт с набором коротких и часто внешне бессюжетных фраз, появившихся как побочные эффекты мыслительной деятельности (бывает так, когда напряжённо думаешь, ещё что-нибудь в голову приходит). Там есть ещё игра слов, услышанные или увиденные где-то смешные словесные конструкции, самодельные афоризмы, выплеск эмоций ну и прочее. Проект явно не для широкой аудитории, но тем, не менее, давний (более 4-х лет) и заботливо поддерживаемый. Работает на стандартном движке и собственноручно написанной теме. Никаких рекламных ссылок там нет, не было и никогда не будет.

И вот, на днях совершенно случайно выяснилось, что сайт перестал индексироваться Яндексом.

Нельзя сказать, что у этого проекта был, есть или предполагается какой-то ощутимый приток посетителей из поисковых систем, но пропажа из индекса удивила.

В ходе переписки со службой поддержки я получила два письма по стандартным шаблонам, которыми они, судя по всему, отвечают владельцам спамовых и мусорных сайтов. Со ссылками на правила (про сео-ссылки, поисковый спам, рекламу, нечестные приёмы, поп-ап баннеры и прочее), которые мною, конечно же, никогда не нарушались.
Читать дальше →
Всего голосов 103: ↑80 и ↓23 +57
Просмотры462
Комментарии 230

Видео с пользовательской конференции по Sphinx (~8часов)

Высокая производительность
Поскольку новость не пробежала на Хабре, но однозначно (с) будет интересна многим:

«Видео с пользовательской конференции по Sphinx (~8часов)
http://devconf.tv/user/sphinx».
Всего голосов 26: ↑23 и ↓3 +20
Просмотры902
Комментарии 9

Ссылки на домены РФ

Хостинг
Прошу прощения, если для вас это не новость, но для меня стало сюрпризом. Сегодня получил ответ от «Платона» (службы техподдержки Яндекса) на вопрос, почему у одного моего сайта не засчитываются внешние ссылки, когда они есть. Ответ — Яндекс не понимает ссылки вида

<a href="http://мой-замечательный-сайт.рф">мой замечательный сайт</a>

Нужно писать

<a href="http://xn--5--6kefc8eacisehw44fjon5aig7i.xn--p1ai">мой замечательный сайт</a>

Что-то как-то долго наш поисковик номер один реагирует (это, впрочем, точно ни для кого не новость). Боюсь, переходу рунета на русские домены это весьма и весьма мешает.

UPDATE
Только что получил ещё одно письмо от какого-то другого «Платона». Цитирую:
«Приношу свои извинения за некорректный ответ в предыдущем письме. Проблем с индексированием кириллических ссылок доменов в зоне.рф возникать не должно. Мы проверим, по какой причине внешние ссылки не учитываются для Вашего сайта, и сделаем все возможное, чтобы ее устранить.»
Всего голосов 19: ↑9 и ↓10 -1
Просмотры2.2K
Комментарии 11

Почему находится всё: ответ Яндексу от разработчиков Shop-Script

Блог компании Webasyst
Мы являемся разработчиками скрипта интернет-магазина Shop-Script, который волей-неволей стал замешан во вчерашней истории о том, что Яндекс проиндексировал приватные данные покупателей многих интернет-магазинов. В статье шла речь о магазинах, работающих на основе движка Shop-Script. Я понимаю, что могу получить много гневной критики от тех, кто считает, что вина полностью на разработчике движка, однако, считаю необходимым отразить нашу позицию и постараюсь объективно описать, что произошло, обсудить возможные решения.

Вчера, конечно, было неожиданностью узнать о сложившейся ситуации. Первое, что мы сделали — это проверили, все ли магазины подвержены такой проблеме. Оказалось, что далеко не все. Было преподложение, что проблема может быть в магазинах, которые установили какой-нибудь плагин или сторонний серверный модуль. Но оказалось, что дело и не в этом. Все магазины, у которых страницы с приватными данными клиентов появились в результатах поиска Яндекса, объединяло одно — установленный код Яндекс.Метрики. В точности, как и в недавнем случае с «Мегафоном».

Далее — о том, откуда взялись ссылки на приватные страницы, и как они могли попасть в индекс Яндекса, масштабности проблемы и возможных решениях.
Читать дальше →
Всего голосов 211: ↑155 и ↓56 +99
Просмотры45.6K
Комментарии 520

Яндекс добавил опцию запрета индексации для Метрики

Чулан
Теперь можно запретить передачу URLов, которые проходят через Метрику.
У меня сложилось ощущение, что сделано это совсем недавно.
Или я ошибаюсь?

Подробнее тут
Всего голосов 47: ↑42 и ↓5 +37
Просмотры499
Комментарии 66

Парадигма секретной ссылки

Блог компании NetCat
Последние несколько дней Рунет захлестнула новая забава: комментирование утечек конфиденциальных данных. Конспирологи уже придумали массу теорий. Тут и вредоносная деятельность Яндекса, ничем не чурающегося в расширении поискового индекса. И целенаправленная подготовка общества к сбору больших денег при помощи закона 152-ФЗ. И происки злобных конкурентов (особенно актуально в контексте РЖД). Ну и конечно же хакеры, переключившиеся с американского Минобороны и Мастеркарда на более серьезного противника — российские секс-шопы. Реальность же с вероятностью 99% гораздо более прозаична. Но это не так интересно, как выводы, которые сделают для себя заинтересованные стороны: поисковые системы, разработчики CMS и сайтов и сами владельцы этих сайтов.
Читать дальше →
Всего голосов 98: ↑52 и ↓46 +6
Просмотры23K
Комментарии 55

Googlebot начал делать POST-запросы через Ajax

Поисковые технологии
Поисковый краулер Google постоянно улучшается, чтобы получить доступ к относительно закрытым частям сайтов. В 2008 году Googlebot начал сабмиттить GET-формы, а нынешним летом — исполнять JavaScript. Сейчас дошло дело и до передачи данных серверу методом POST.

Веб-мастер сайта thumbtack.com демонстрирует примеры таких запросов в логах Apache за сентябрь-октябрь 2011 года.
Читать дальше →
Всего голосов 53: ↑45 и ↓8 +37
Просмотры2.6K
Комментарии 58

Система поисковой индексации в Evernote

Блог компании Evernote
Система индексации в Evernote разработана для расширения поисковых возможностей Evernote и обеспечения поиска по медиафайлам. Ее задача — исследовать содержимое этих файлов и сделать любую обнаруженную в них текстовую информацию доступной для поиска. В настоящее время она обрабатывает изображения и файлы PDF, а также «цифровые чернила» (digital ink), но в планах у нас есть поддержка индексирования и других типов медиафайлов. Полученный индекс выводится в виде документа XML или PDF и содержит распознанные слова, альтернативные варианты распознавания, а также координаты найденных слов в документе (для последующей подсветки).
Читать дальше →
Всего голосов 15: ↑13 и ↓2 +11
Просмотры4.7K
Комментарии 4

Несколько подробностей о системе индексации в Evernote

Блог компании Evernote
Предыдущая статья о распознавании текста в изображениях в сервисе Evernote была посвящена в основном вопросам функциональности — что это такое, как работает и что дает платформе Evernote в целом. На этот раз мы поговорим о технической стороне вопроса.

Аппаратное обеспечение


Распознавание текста в изображениях Evernote значительно загружает вычислительный кластер, поэтому производительность и эффективность играют главную роль при оценке оборудования. После испытания нескольких различных платформ мы остановились на iX1204-563UB от iX Systems. По сути это Supermicro X8DTU на шасси 815TQ-563UB. Каждая из 37 систем распознавания в кластере состоит из следующего железа:

  • CPU: два Intel Xeon CPU L5630 @ 2,13 МГц (расчетная рассеиваемая мощность — 40 ватт)
  • Материнская плата: Supermicro X8DTU
  • Системный блок: Supermicro 815TQ-563UB
  • Блок питания: 560 ватт (имеет рейтинг эффективности 80Plus Gold)
  • Хранилище данных: 5,25-дюймовый жесткий диск с пониженным энергопотреблением
  • RAM: 12 Гб PC3-8500 (1066 МГц)

Читать дальше →
Всего голосов 9: ↑8 и ↓1 +7
Просмотры3.2K
Комментарии 3
1