Как стать автором
Обновить
29.51

Поисковые технологии *

От AltaVista до Яндекса

Сначала показывать
Порог рейтинга
Уровень сложности

Хабргорода

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров2.1K

У меня возникла идея сделать список упоминаний названий городов в статьях Хабра за 2023 год и карту по которой можно найти статьи. Публикации, где упоминается конкретный город. С первого взгляда задачка простая, но это как всегда дьявол кроется в деталях!

Для этого нужны данные статей Хабра, названия городов с координатами и поиск этих названий в текстах статей. Задача осложняется великим и могучим языком со склонениями и многозначностью слов. Создание списка статей с Хабра за 2023 год по городам мне чем-то напомнило работу первых поисковых движков в рунете. Теперь я понимаю как кусали себя за локти программисты тех дней!

Читать далее
Всего голосов 12: ↑12 и ↓0+12
Комментарии9

Семантический поиск и генерация текста на R. Часть 1

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров2.1K

Для этой задачи использую LLM (Large Language Models - например, chatGPT или opensouce модели) для внутренних задач (а-ля поиск или вопрос-ответную систему по необходимым данным).

Я пишу на языке R и также увлекаюсь NLP (надеюсь, я не один такой). Но есть сложности из-за того, что основной язык для LLM - это python. Соответственно, на R мало примеров и документации, поэтому приходится больше времени тратить, чтобы “переводить” с питона, но с другой стороны прокачиваюсь от этого.

Чтобы не городить свою инфраструктуру, есть уже готовые решения, чтобы быстро и удобно подключить и использовать. Это LangChain и LlamaIndex. Я обычно использую LangChain (дальше он и будет использоваться). Не могу сказать, что лучше, просто так повелось, что использую первое. Они написаны на питоне, но с помощью библиотеки reticulate всё работает и на R.

Читать далее
Всего голосов 8: ↑8 и ↓0+8
Комментарии4

Как поисковые алгоритмы меняли SEO: краткий обзор последних 15 лет

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров2.4K

Рассмотрим некоторые известные алгоритмы Яндекса, под влиянием которых менялся внешний вид и логика поисковой выдачи, а вместе с ней методы работы SEO-специалистов.  

Читать далее
Всего голосов 10: ↑6 и ↓4+2
Комментарии3

Мой первый прототип поискового движка

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров7.1K

Я реализовал первый прототип собственного механизма поиска, который сокращённо назвал PSE (Personal Search Engine). Создал я его с помощью трёх скриптов Bash, возложив всю основную работу на sqlite3, wget и PageFind.

Браузер Firefox вместе с Newsboat сохраняют полезную информацию в базах данных SQLite. В moz_places.sqlite содержатся все посещённые URL-адреса и адреса закладок (то есть moz_bookmarks.sqlite базы данных SQLite). У меня получилось около 2000 закладок. Это меньше, чем я предполагал, так как многие оказались нерабочими из-за битых ссылок.

Нерабочие URL-адреса страниц сильно замедляют процесс сбора, так как wget приходится ожидать истечения различных таймаутов (например, DNS, ответа сервера, время скачивания). URL-адреса из «истории» составили бы интересную коллекцию для сбора, но тут не обойтись без списка исключений (например, нет смысла сохранять запросы к поисковым системам, веб-почте, онлайн-магазинам). Изучение этого вопроса я отложу до следующего прототипа.
Читать дальше →
Всего голосов 57: ↑55 и ↓2+53
Комментарии26

Истории

Объективные показатели кризиса репутации бренда в интернете

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров1.4K

Выступление на конференции Optimization 2023 о базовых характеристиках кризиса репутации бренда в интернете.

Хотите прочесть?
Всего голосов 12: ↑6 и ↓60
Комментарии13

Как конструктор диалогов прокачал Робота Макса

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров1.7K

Привет, Хабр! На связи команда контента Робота Макса, которая отвечает за структуру и логику его ответов, а также разрабатывает и выводит эти ответы в прод.

У Робота Макса уникальная по объёму и потребностям аудитория. Чтобы дать всем простые и полезные ответы, необходим большой объём контента. До 2023 года мы вручную работали с базой знаний и разрабатывали диалоги, но достигли потолка человеческих ресурсов и решили оптимизировать трудозатраты. О появлении цифрового ассистента на Госуслугах рассказывали в другой статье на Хабре. В этой поделимся нашим опытом оптимизации создания диалогов и расскажем, в каком направлении хотим двигаться дальше.

Читать далее
Всего голосов 17: ↑17 и ↓0+17
Комментарии8

Понимаем с полуслова: как работает поиск товаров в СберМаркете

Время на прочтение7 мин
Количество просмотров2.9K

Всем привет! Меня зовут Аня Власова. Я работаю ML-инженером в команде Поиска СберМаркета. В этой статье я расскажу, как устроены наши процессы: с момента, когда пользователь вводит запрос, до получения поисковой выдачи. Если вы разрабатываете поиск или просто интересуетесь темой, то наверняка сможете найти интересные инсайты для своей работы.

Коротко о том, что вас ждет:

- Зоны ответственности команды Поиска;

- Как мы отбираем кандидатов для отображения их в поисковой выдаче;

- Финальное ранжирование товаров ml моделью.

7 из 10 товаров в СберМаркете добавляются в корзину именно из Поиска, так что даже маленькие изменения в наших продуктах оказывают большой и видимый эффект на бизнес. Именно поэтому мы уделяем много внимания постоянному улучшению наших решений и уже добились хороших результатов. Надеюсь, что вы почерпнете что-то новое из нашего кейса и сможете применить это в своей работе. Поехали!

Читать далее
Всего голосов 15: ↑14 и ↓1+13
Комментарии17

Рекомендации яндекс «Куда пойти в Москве»: история моего фиаско

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров2.5K

Пару недель назад яндекс в блоге вебмастеров проанонсировал появление нового блока на поиске – с рекомендациями и событиями. Мы – клуб по игре в мафию – попробовали подключиться к этому сервису и описываем свой опыт: первая половина статьи о технических аспектах подключения, вторая – про бизнесовую.

Читать далее
Всего голосов 17: ↑16 и ↓1+15
Комментарии2

Как мы делали подсказки в продукте для корпоративного поиска на базе Elasticsearch

Время на прочтение3 мин
Количество просмотров2.8K

Казалось бы поисковые подсказки (автокомплит) простая и понятная вещь, реализованная во множестве проектов и работающая из коробки. 

Как бы не так. 

Под катом расскажем про существующие подходы, их ограничения, и как мы вышли из положения для реализации подсказок в продукте для корпоративного поиска Content AI Intelligent Search

Читать далее
Всего голосов 4: ↑4 и ↓0+4
Комментарии1

Хочу всё знать

Время на прочтение4 мин
Количество просмотров11K

Я с детства испытывал тягу к знаниям. Смотрел шоу "Своя игра" и поражался тому, откуда можно знать о мире настолько широко. Невозможно было игнорировать тот факт, что гроссмейстеры были в основном, пожилыми, а я хотел все знать сейчас, а не когда я выйду на пенсию. Поэтому я много читал и не переставал мечтать о том, чтобы можно было загрузить информацию в голову напрямую.

Последние несколько лет, компания Neuralink, с Илоном Маском в роли сооснователя, активно работает над созданием такого чипа. Этот факт, однако, повлек дискуссии, что именно произойдет, если информация попадет на чип, к которому у вас есть доступ, однако нейронные связи в вашем мозгу не сформировались и вы эту информацию не обдумывали? Чем эта ситуация отличается от того, когда информация находится в книге, на жестком диске, в телефоне или на компьютере, но вы книгу еще не читали? Разве что простотой доступа?

Эта дискуссия заставила меня задуматься над тем, есть ли иной способ ускорить освоение информации, не подвергаясь рискам от установки чипа, которого, в любом случае, не существует и не появится в обозримом будущем? Так я начал изучать технологии обучения.

Методов обучения множество. Часть из них ориентированы больше на усиление запоминания информации, а другая часть на углубление понимания. Однако, меня интересовало то, что увеличило бы именно скорость. Само собой напрашивается скорочтение. Тут хотелось бы остановиться и обсудить этот метод. Есть многочисленные исследования различных вариаций скорочтения и все они показывают, что скорочтение это миф и те, кто его практикуют, просто водят глазами по странице. Более того, если мы говорим не о художественных произведениях или текстах полных воды, а о "нормальных книгах", то очевидно, что прочитать страницу занимает 1 минуту, а обдумать - 10. Если даже за счет техник скорочтения можно было бы научиться прочитывать страницу за секунду, все еще остается потратить 10 минут на обдумывание.

Читать далее
Всего голосов 19: ↑17 и ↓2+15
Комментарии29

Google и Yandex SEO оптимизация для SPA приложений

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров4.1K

Google и Yandex утверждают, что что-то уже могут по индексированию SPA приложений. В статье показаны результаты проведенного эксперимента по индексации чистого SPA вебсайта.

Результат: Google - хорошо, Yandex - не очень

Читать далее
Всего голосов 8: ↑4 и ↓40
Комментарии11

Производительность базового поиска в Ozon как культурный феномен

Уровень сложностиСредний
Время на прочтение22 мин
Количество просмотров22K

В этой статье я расскажу вам о том, как мы в Ozon оптимизируем базовый поиск: как у нас выстроены процессы, как найти бутылочное горлышко, конкретные рекомендации по написанию горячего кода, реальные примеры значимых оптимизаций и что делать, когда все низко висящие фрукты уже сорваны, а хочется ещё.

Читать далее
Всего голосов 81: ↑76 и ↓5+71
Комментарии87

Андрей Аксёнов, создатель Sphinx и лауреат Highload++: Мой путь — это «святые» девяностые и алгоритмический джихад

Время на прочтение9 мин
Количество просмотров2.7K

Андрей Аксёнов нередко начинает свои доклады с такой самопрезентации: «воронежское быдло, интересуюсь информационным поиском». Правда, в Воронеже он уже давно не проживает, но информационный поиск по-прежнему в топе списка его интересов. Работает Андрей тимлидом в компании Avito и руководит юнитом инфраструктуры поиска. А ещё именно он создал поисковый движок Sphinx и не ограничился этим, а участвовал ещё во многих других проектах — работал в веб студиях, геймдеве (приложил руку к 10+ разных игр в начале 2000-х), немного помогал с движком Unigine, много выступал на IT конференциях. За эти заслуги его наградили Премией Highload++ в 2018 году. Мы расспросили его, что значит для него премия и как создать популярный и полезный open-source проект.

Читать далее
Всего голосов 12: ↑12 и ↓0+12
Комментарии2

Ближайшие события

Инфраструктура у жилья в столице

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров2.8K

Кадый день вы совершаете почти одни и те же действия - просыпаетесь, чистите зубы, завтракаете, кто-то из вас отводит детей в садик или начальную школу, потом вы идете на работу, возвращаясь с работы вы идете на спортивную тренировку, заходите в магазин или в пункт выдачи заказов и возвращаетесь домой. На выходных идете в парк или в торговый центр на шоппинг, возможно в театр или ночной клуб.

Поиски и сравнения места для жительства включают в себя оценку окрестностей вокруг. А можно пойти с обратной стороны и присмотреть дома где все нужное вам по соседству. Чтобы меньше времени проводить в дороге и больше моментов жизни было с пользой.

Программа расчитала десятки миллионов пешеходных дистанций от жилых зданий Москвы в 2км от метро и я опубликовал данные на Github в виде поисковика жилья для гиков.

Читать далее
Всего голосов 8: ↑8 и ↓0+8
Комментарии16

Множественное дублирование заголовков и описаний (SEO)

Время на прочтение5 мин
Количество просмотров3.7K

О чём статья?

Одна из проблем, с которой могут столкнуться сайты с очень большим количеством страниц (порядок: несколько десятков миллионов страниц), — одинаковые мета-теги title и description на всех этих страницах. В этой статье разберём способы, как можно частично улучшить SEO ситуацию в таком случае.

Читать далее
Всего голосов 6: ↑4 и ↓2+2
Комментарии5

Вас забанила нейросеть: как новый алгоритм Яндекса постепенно выкидывает из поиска региональные СМИ

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров45K

Пару недель назад я совершенно случайно обнаружил в Яндекс Вебмастере плашку о фатальной ошибке. Там было написано, что мой сайт может угрожать безопасности пользователя, или на нём были обнаружены нарушения правил поисковой системы. Других ошибок не было: индекс качества даже немного подрос.

Удивительно было, что этот сайт — известное в регионе СМИ, и вопросов к нему со стороны Яндекса не было все восемь лет его существования. Потому что мы и на самом деле нарушениями правил поисковиков не занимаемся. Но сначала я, конечно, подумал, что проблема в нас самих — где‑то спрятался баг или, того хуже, взломали. Однако всё оказалось куда интереснее.

Дело оказалось в новом алгоритме Яндекса, который теперь буквально запрещает писать новости. В нашей области он уже забанил примерно треть независимых региональных СМИ. Причём под удар, на удивление, попали одни из самых качественных. Поэтому я считаю, что проблема здесь не столько в сайтах, сколько в самом алгоритме, создатели которого придумали хорошую идею по борьбе за уникальность контента, но не до конца её протестировали. Почему я пришёл к такому выводу и что конкретно с алгоритмом не так, я здесь и расскажу.

На КПДВ: «Региональный журналист пишет новость» глазами другой нейросети Яндекса — «Шедеврум».

Читать далее
Всего голосов 264: ↑258 и ↓6+252
Комментарии304

Как ранжируются сайты в тематике «Спорттовары»

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров777


«Спорттовары» – ниша с высокой конкуренцией и с относительно узким товарным ассортиментом. Данное исследование поможет понять, как ранжируются сайты этой тематики. В статье рассмотрим особенности алгоритмов поисковых систем, а также баги и фичи страниц из топ-10. Отмеченные в материале баги приведены с целью показать, как можно улучшить работу сайтов. 

Для исследования специалисты Ingate Group взяли выборку из 2000 запросов с общей частотностью 103738175 (средняя частотность за год). Затем отобрали 50 сайтов-лидеров ниши, которые доминируют по количеству запросов в топ-10 (анализировали Яндекс и Google). Особенности спроса рассмотрели в широкой семантике в 90600 запросов с общей частотностью 684364305, чтобы выявить глобальную закономерность поиска.

Читать далее
Всего голосов 6: ↑1 и ↓5-4
Комментарии1

OSINT: инструменты

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров43K

Современные реалии таковы, что большинство людей в своих социальных сетях сами пишут на себя досье. В этой статье вы узнаете о некоторых инструментах, которые помогут вам узнать о человеке максимум.

Читать далее
Всего голосов 19: ↑16 и ↓3+13
Комментарии10

Как ранжируются сайты в тематике «Туризм»?

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров740


«Туризм» – конкурентная ниша, в которой сайтам важнее получить охваты, чем занять конкретные топы. Это широкая тематика с особенными паттернами спроса и критериями качества страниц.  Заметив аномалии в выдаче, мы решили провести это исследование. В статье рассмотрим особенности алгоритмов поисковых систем, а также баги и фичи страниц из топ-10. Отмеченные в материале баги приведены с целью показать, как можно улучшить работу сайтов. 

Для исследования специалисты Ingate.Organic взяли выборку из 1200 запросов с общей базовой частотностью 14725623 (средняя частотность за год). Затем отобрали 50 сайтов-лидеров, которые доминируют по количеству запросов в топ-10 ( выдача в Яндексе).

Читать далее
Всего голосов 7: ↑2 и ↓5-3
Комментарии0

Как мы запустили автобиддер для управления рекламными кампаниями в Ozon?

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров4.4K

Привет! Меня зовут Артём, я руковожу командой эффективности рекламы в Ozon. Наша задача состоит не только в том, чтобы реклама приносила деньги компании, заказы рекламодателям и была релевантной для пользователей, но и в том, чтобы сделать запуск рекламных кампаний удобным и эффективным для рекламодателей. 

В статье я расскажу о том:

как мы пришли к идее автоматического управления ставками в рекламных кампаниях на платформе;

какие алгоритмы оптимизации и машинного обучения нам помогли;

как построена архитектура автобиддера;

как выкатить новый продукт в прод и измерять эффективность.

Читать далее
Всего голосов 40: ↑38 и ↓2+36
Комментарии6

Вклад авторов