Как стать автором
Обновить
12.59

Поисковые технологии *

От AltaVista до Яндекса

Сначала показывать
Порог рейтинга
Уровень сложности

Отчет Yandex: 25% контента в рунете — копипаст

Время на прочтение 1 мин
Количество просмотров 1.1K
Компания «Яндекс» признала 25 процентов новостных сообщений в Рунете перепечатками — текстовыми копиями новостей с других ресурсов. При этом ссылки на источник содержатся лишь в 40 процентах перепечатанных сообщений.
Отчет яндекса: company.yandex.ru/facts/researches/yandex_on_internet_media_spring_2011.xml
Новость в кратком изложении: lenta.ru/news/2011/03/09/unoriginal
Всего голосов 39: ↑32 и ↓7 +25
Комментарии 54

Blekko забанил 1,1 миллиона сайтов

Время на прочтение 2 мин
Количество просмотров 779
В то время как Google меняет поисковые алгоритмы, чтобы снизить вес мусорных сайтов, другие поисковики идут на более радикальные меры. Вчера система Blekko забанила сразу 1,1 млн доменов, где «слишком мало контента и слишком много рекламы».

Исключение сайтов из выдачи Blekko началось в прошлом месяце с двадцати сайтов, в том числе eHow и Answerbag (принадлежат копирайтерской империи Demand Media), на которые чаще всего жаловались пользователи. Как известно, поисковая выдача в Blekko фильтруется с учётом пользовательского фидбека.
Читать дальше →
Всего голосов 30: ↑18 и ↓12 +6
Комментарии 22

«Aliketo» — ищет похожие вещи, и даже иногда находит, но только на английском

Время на прочтение 1 мин
Количество просмотров 1K
Привет, Хабр!

Блог «Я безумный» зачем-то переименовали в «Подсознание», поэтому писать буду здесь. Как-то раз я не мог вспомнить название фильма, но точно помнил названия пары других, которые были на него похожи. Появилась идея зарегистрироваться на каком-нибудь рекомендательном киносервисе, затем, поставить известной мне паре фильмов наивысшие возможные оценки. Ну а дальше, уповать на то, что сервис порекомендует мне похожие фильмы и среди них будет тот, название которого я забыл.

Регистрироваться в подобном сервисе мне стало лениво потому, что всё что на самом деле мне было нужно — это просто указать пару названий фильмов и получить список похожих. Никакие регистрации-оценки-рекомендации не нужны. Так и родилась идея сделать сервис, который по паре строчек текста мог бы определить принадлежность этих строк к какому-либо множеству и показать это множество пользователю.

Естественно, основная проблема — где достать данные по множествам, ответ — получить их от самих пользователей. Но беда в том, что первые пользователи сервиса обречены на бесполезные попытки найти хоть какие-то ответы на свои запросы. Так что, всё-таки нужно где-то заранее добыть эти множества. Для английского языка, я это худо-бедно, но сделал, а вот для русского не получилось.

Если вы владеете английским, попробуйте что-нибудь поискать, другое что-нибудь непременно найдётся. Из русских множеств, сервис знает только о «хабр, лепра, дёрти» и «мир, труд, май», но ничто не мешает вам эти знания расширить. Ах да, ссылка — aliketo.com.

Весёлых выходных!

UPDATE: Вижу, что ищут одной строчкой «мир, труд», так не работает. Так работает:

мир
труд
Всего голосов 6: ↑5 и ↓1 +4
Комментарии 11

Hyper Estraier — небольшой поисковик для ленивых

Время на прочтение 4 мин
Количество просмотров 1.4K
Небольшой — потому-что в сравнении со Сфинксом скорость работы действительно не впечатляет, а для ленивых — потому-что все очень просто.
Чем привлек внимание, не смотря на скромные характеристики?
1. Возможностью real-time индексирования.
2. Наличие атрибутов документа и их использование в поиске и сортировке результата.
3. Простота работы и компактная четкая документация (хватило пары дней на изучение, собственно беглый взгляд по диагонали доков и явился толчком для более детального изучения продукта).

Мои впечатления о Hyper Estraier:
Читать дальше →
Всего голосов 1: ↑1 и ↓0 +1
Комментарии 7

Истории

Конкуренты Google в Европе: Яндекс и Seznam

Время на прочтение 5 мин
Количество просмотров 8.6K
Несколько недель назад в чешской онлайн-индустрии внезапно поднялся шум. Google якобы обошла поисковую систему Seznam по доле рынка.

Учитывая, что почти во всей Европе доминирует Google, Чехия вместе с Россией находятся в исключительном положении. В этих странах Google не лидирует в поиске. Вместо неё лидирующие позиции занимают местные поисковые системы.

Сообщения о переходе доминирования от Seznam к Google оспорила сама компания Seznam. И кажется, что она вполне права. Числа, предоставляемые сервисом веб-аналитики Toplist основаны на трафике, поступающем на сайты Toplist. Этот метод не совсем правилен для расчёта долей рынка.

Однако, быстро распространённый пресс-релиз Toplist позволил привлечь компании большое внимание к себе. И он затронул ещё один интересный вопрос: что позволяет Seznam и Яндексу быть одними среди немногих, кто может противостоять Google в своих регионах?

Давайте рассмотрим обе поисковые системы.
Читать дальше →
Всего голосов 55: ↑41 и ↓14 +27
Комментарии 69

Исследование факторов ранжирования в Яндексе

Время на прочтение 1 мин
Количество просмотров 3.6K
Несколько десятков специалистов по поисковой оптимизации поучаствовали (своими ответами) в исследовании факторов ранжирования в Яндексе. Результаты вы можете лицезреть ниже на скриншотах или же на сайте топэксперт.рф вместе с комментариями и пояснениями. Думаю, что шпаргалка пригодится не только оптимизаторам, но и всем вебмастерам.

Начнем с внешних факторов. Критерии выбора внешних ссылок:



Читать дальше →
Всего голосов 167: ↑137 и ↓30 +107
Комментарии 67

Инфраструктура Blekko: 800 серверов, свой краулер и модули Perl

Время на прочтение 2 мин
Количество просмотров 1.3K
Новый поисковик Blekko начал работу полтора месяца назад и вполне естественно привлёк к себе пристальное внимание экспертов. Не только благодаря инновационному интерфейсу и слэштегам, но и в принципе, всё-таки в наше время запуск нового поисковика общего профиля — большая редкость. Мало кто осмелится тягаться с Google. Кроме всего прочего, это требует немалых финансовых вливаний.

Давайте посмотрим, что представляет из себя инфраструктура Blekko, о которой в подробностях рассказали CEO Ричард Скрента и CTO Грег Линдал.

Дата-центр Blekko насчитывает около 800 серверов, каждый с 64 ГБ RAM и восемью SATA-дисками по терабайту. Система резервирования RAID не используется совсем, потому что RAID-контроллеры сильно снижают производительность (с 800 МБ/с для восьми дисков до 300-350 МБ/с).
Читать дальше →
Всего голосов 50: ↑45 и ↓5 +40
Комментарии 24

Помощь в оценке содержимого сайтов

Время на прочтение 2 мин
Количество просмотров 528
Прочитав статью о FaceSearch – поиск с новым лицом, возникла идея как можно постараться сделать использование кнопки Like более эффективной, ведь сейчас она показывает только те страницы (сайты) которым симпатизирует пользователь Facebook. Но ведь нередко хочется указать и на те страницы, которых не хотелось бы больше увидеть в результатах поиска.

Мое предложение простое, хотя наверняка и не новое :).
Читать дальше →
Всего голосов 1: ↑1 и ↓0 +1
Комментарии 2

ОВР — Очень Важные Реакции

Время на прочтение 2 мин
Количество просмотров 8.2K
Так уж исторически сложилось, что одной из самых сложных задач школьной химии всегда являлись окислительно-восстановительные реакции. Электронные конфигурации атомов, комплексные соединения, и даже устройство солей перксеноновой кислоты не вызывают у детей столько оторопи, сколько уравнивание ОВР. Так как часть нашей команды занимается созданием сервисов для школьников, мы захотели помочь решить проблему с поиском окислительно-восстановительных реакций. Разумеется, нам очень не хотелось потворствовать списыванию, поэтому мы постарались сделать наш сервис обучающим, чтобы любому школьнику стало понятно, как же уравниваются те самые ОВР.

В первую очередь для всех имеющихся у нас окислительно-восстановительных реакций мы стали показывать соответствующие полуреакции.
Например, вот так:

Читать дальше →
Всего голосов 77: ↑71 и ↓6 +65
Комментарии 46

Wylio — поиск картинок для блога

Время на прочтение 1 мин
Количество просмотров 959

Я думаю многие сталкивались с проблемой, что при написании статей для блога нужны картинки в тему. Приходилось лезть в гугл, скачивать, редактировать размер и так далее. Теперь все стало проще с Wylio
Читать дальше →
Всего голосов 16: ↑10 и ↓6 +4
Комментарии 7

Отчет с конференции Lucene Revolution

Время на прочтение 5 мин
Количество просмотров 3.9K
В начале октября мне удалось побывать на конференции Lucene Revolution, которая проходила в городе-герое Бостоне. Эта конференция была посвящена открытым поисковым технологиям Apache Lucene и Apache Solr. Мне кажется, что на хабре в частности и в рунете в целом этим технологиям уделяется незаслуженно мало внимания. Давайте исправим это упущение.

Читать дальше →
Всего голосов 41: ↑38 и ↓3 +35
Комментарии 10

Blekko: поисковик со слэштегами (категориями)

Время на прочтение 2 мин
Количество просмотров 2.2K
Наконец-то запустилась для публичного бета-тестирования оригинальная поисковая система Blekko, разработанная под руководством Ричарда Скренты (Rich Skrenta).

Ричард Скрента приобрёл известность в хакерских кругах в 1982 году, когда написал вирус Elk Cloner, считающийся первым массовым вирусом для персональных компьютеров (тогда это были Apple II). Юному таланту было всего 15 лет, он учился в школе.
Читать дальше →
Всего голосов 55: ↑49 и ↓6 +43
Комментарии 18

Ближайшие события

Московский туристический хакатон
Дата 23 марта – 7 апреля
Место
Москва Онлайн
Геймтон «DatsEdenSpace» от DatsTeam
Дата 5 – 6 апреля
Время 17:00 – 20:00
Место
Онлайн

Умер CC-поиск Yahoo

Время на прочтение 1 мин
Количество просмотров 737
Не знаю как вы, а я только что заметил, что вместе с переключением Yahoo! на поиск Bing, умер самый первый поиск по произведениям под лицензиями Creative Commons. Когда-то в марте 2004 года этот поиск был прорывом. Действительно, найти что-то, что можно легально использовать — отличная возможность. Теперь же Yahoo! уже убран со страницы search.creativecommons.org. Но слава богу, что свободную культуру поддержал Google и в ноябре 2005 года открыл свой расширенный поиск по CC. Теперь на search.creativecommons.org остался только Google.

И у меня есть мечта. Я мечтаю, чтобы Яндекс тоже открыл свой Creative Commons-поиск. Для него это будет хорошей рекламой за пределами СНГ.
Всего голосов 59: ↑50 и ↓9 +41
Комментарии 16

Twitter: 1 млрд запросов в сутки и новый поисковик

Время на прочтение 3 мин
Количество просмотров 2.2K
На данный момент нагрузка на серверы Twitter выросла до 1000 TPS (твитов в секунду) и 12000 QPS (запросов в секунду) — более 1 млрд запросов в сутки. Текущая инфраструктура ещё выдерживает, но чтобы создать запас на несколько лет вперёд, компания приняла решение обновить бэкенд для поисковой системы. «Если мы сработали хорошо, то вы не должны были ничего заметить за последние недели», — сообщается в блоге разработчиков Twitter.

До недавнего времени поисковый бэкенд Twitter был основан на старой SQL-системе от компании Summize. Её купили в июле 2008 года как раз для этих целей, а также взяли пять из шести разработчиков. Необходимость апгрейда Twitter стала понятна сразу после презентации iPhone 3G, тогда и началось сотрудничество с Summize. Но сейчас пришло время снова обновляться.

Примерно шесть месяцев назад было принято решение разработать новую, современную поисковую архитектуру, основанную на эффективном инвертированном индексе вместо реляционной базы данных. Поскольку Twitter любит open source, то в качестве начальной точки решения выбрали поисковую библиотеку Apache Lucene, написанную на Java.
Читать дальше →
Всего голосов 49: ↑44 и ↓5 +39
Комментарии 17

Анонс анонса улучшений Нигма-математики

Время на прочтение 1 мин
Количество просмотров 749
Раз теперь блог Нигмы превратился в уютное закрытое сообщество, я решил заранее проинформировать интересующихся Нигмой о том, что мы делаем, и что собираемся анонсировать.

На следующей неделе мы объявим об улучшениях в нашем построителе графиков функций, которые мы сейчас тестируем. Как и в прошлый раз, новые фичи мы сделали лучше Вольфрама (который, кстати, до сих пор точек не выкалывает, асимптот не строит и т.д.), так что писать есть о чем. Ну а к тому, что этого нет у прочих поисковиков, вы уже привыкли. А ведь это все действительно нужно юзерам — у нас уже более 10% запросов нашей трехмиллионной аудитории — к математике; математическое приложение для Вконтактика уже набрало более полумиллиона юзеров.

Так вот, если кто-то хочет написать о наших новых фичах (на Хабре или еще где-то), мы готовы рассказать какие-то интересные подробности о самих фичах, о технологиях, можем рассказать интересную статистику и прочий эксклюзив. Обращаться лучше, наверное, прямо по мылу — lavrenko собака nigma.ru
Всего голосов 5: ↑5 и ↓0 +5
Комментарии 0

Блог Нигмы прощается с вами

Время на прочтение 1 мин
Количество просмотров 2K
Дорогие хабрахабровцы!

Недавно наш блог был закрыт администрацией Хабрахабра с формулировкой, которую мы, по всей вероятности, не имеем права вам сообщать, т.к. в письме было указано «Информация в этом электронном письме и любом приложении является конфиденциальной и предназначена только для получателя». Но вы можете легко догадаться, что там было написано.

Поэтому, если вы хотите что-то написать о Нигме, пожалуйста, пишите это в другие блоги, и старайтесь писать менее «пиарно». Мы настоятельно рекомендуем вам не копипастить наши пресс-релизы, а писать креативно, включая в посты интересную информацию не только о Нигме. Кроме того, мы всегда открыты для любых вопросов и готовы давать авторам более развернутые комментарии.
Всего голосов 20: ↑11 и ↓9 +2
Комментарии 8

Нигма проводит национальный ребрендинг

Время на прочтение 1 мин
Количество просмотров 927
нигма.рф
Интеллектуальная поисковая система Nigma.ru изменила название на русское «Нигма.РФ».
По данным статистики больше всего пользователей поисковика живут в России — 71,6%. Затем следует Украина с почти 15% и Казахстан с Белоруссией — 6%. Проведенное маркетинговое исследование показало, что русскоязычному пользователю легче запомнить и набирать адреса написанные кириллицей, чем латинскими буквами. Новый логотип подчеркивает, что поисковая система ориентирована на русскоязычного пользователя.
Читать дальше →
Всего голосов 34: ↑20 и ↓14 +6
Комментарии 30

Мирный ботнет

Время на прочтение 5 мин
Количество просмотров 1.6K
Современные поисковые системы способны самостоятельно упорядочивать огромные объемы информации, позволяя быстро находить материалы по любой теме. Но когда дело касается поиска товаров в интернет-магазинах или вакансий в базах рекрутинговых агентств, или предложений автомобилей по сайтам автосалонов, в общем поиска любой каталогизированной информации в Интернет, о самостоятельности поисковых систем говорить не приходится, потому что для удовлетворения таких запросов в большинстве случаев они требуют от сайтов-источников выгрузки (Datа Feed) своих каталогов в специальном формате.

Автоматическое извлечение фактов из каталогов, не имеющих семантической разметки, является непростой задачей, но всё же она много проще задачи извлечения фактов из произвольного неструктурированного текста.
Читать дальше →
Всего голосов 40: ↑30 и ↓10 +20
Комментарии 39

Greplin: персональный поиск по всем социальным сервисам

Время на прочтение 2 мин
Количество просмотров 1.1K
Из инкубатора Y Combinator вышел ещё один интересный стартап: персональная поисковая система Greplin. Идея состоит в том, чтобы проиндексировать всю персональную информацию, которую вы оставляете в социальных сервисах: Facebook, Twitter, Dropbox, Evernote, LinkedIn, Gmail, Google Docs, Google Calendar, Google Voice и т.д. — а потом предоставить поиск по вашему личному архиву.


Читать дальше →
Всего голосов 9: ↑7 и ↓2 +5
Комментарии 2

Вклад авторов