Pull to refresh

Comments 14

Естественно, понадобилось найти более рациональное решение этой инфраструктурной задачи. И мы смогли это сделать.
И как же вы это сделали?
То как они это сделали описано в статье. В предложении речь о сравнении подхода который был с тем что используется сейчас. См. предыдущее предложение:
Чтобы соответствовать темпам роста контента в интернете, используя наш старый алгоритм, нужно бы было невероятно быстро наращивать ресурсы
Последнюю картинку надо наверх — куда больше народу пост прочитает.
Нет! Это бонус для тех, кто прочитал до конца.
А иногда в картинки могут внести некоторые изменения. Например, добавить водяные знаки или логотипы, изменить цвета или обрезать. Но этого будет недостаточно, чтобы считать это изображение новым.

Как же бесит когда в превьюшке видишь какой-нибудь демативатор с нечитаемо мелким текстом тыкаешь на него и получаешь исходную картинку без текста вообще
«Для того чтобы компьютер мог «рассмотреть» эти фрагменты, их нужно перевести их в цифровой формат»
Написано как для 3х летних детей.

Так же не указаны ссылки на другие статьи:
company.yandex.ru/technologies/duplicates/
лекция:
habrahabr.ru/post/143667/

>> чтобы добавить и обработать 10 миллионов новых изображений…
>> не нужно заново запускать процесс на уже существующие в базе миллиарды.
Предположу, что у вас используется какой-то инкрементальный алгоритм кластеризации, который позволяет добавлять картинки в кластерную иерархию без перестройки всей структуры. Но ведь с какого-то момента добавленных данных станет так много, что все равно придется сделать кластеризацию картинок по новой. Как вы решаете эту проблему?
Увы, никак. Только полной перекластеризацией.
Какой именно из алгоритмов выделения фич и вычисления дескрипторов используете? SURF, ORB что-то другое?
Есть еще SIFT.
А вот гораздо более интересный вопрос — что используется для поиска ближайших соседей?
Для поиска интересных точек мы используем DoG. А дескрипторы у нас свои. Но это не принципиально. Тот же SIFT вполне подойдет.

Что касается «ближайших соседей», то мы их, строго говоря, не ищем.
А кандидаты в дубликаты определяются с помощью визуальных слов.
Напишите пожалуйста, в конце статьи, список используемых технологий, а-ля в научных статьях пишут список использованной литературы.
Спасибо за идею. Попробуем сделать так в следующий раз.
Only those users with full accounts are able to leave comments. Log in, please.