Ads
Comments 14
Естественно, понадобилось найти более рациональное решение этой инфраструктурной задачи. И мы смогли это сделать.
И как же вы это сделали?
То как они это сделали описано в статье. В предложении речь о сравнении подхода который был с тем что используется сейчас. См. предыдущее предложение:
Чтобы соответствовать темпам роста контента в интернете, используя наш старый алгоритм, нужно бы было невероятно быстро наращивать ресурсы
Последнюю картинку надо наверх — куда больше народу пост прочитает.
А иногда в картинки могут внести некоторые изменения. Например, добавить водяные знаки или логотипы, изменить цвета или обрезать. Но этого будет недостаточно, чтобы считать это изображение новым.

Как же бесит когда в превьюшке видишь какой-нибудь демативатор с нечитаемо мелким текстом тыкаешь на него и получаешь исходную картинку без текста вообще
>> чтобы добавить и обработать 10 миллионов новых изображений…
>> не нужно заново запускать процесс на уже существующие в базе миллиарды.
Предположу, что у вас используется какой-то инкрементальный алгоритм кластеризации, который позволяет добавлять картинки в кластерную иерархию без перестройки всей структуры. Но ведь с какого-то момента добавленных данных станет так много, что все равно придется сделать кластеризацию картинок по новой. Как вы решаете эту проблему?
Какой именно из алгоритмов выделения фич и вычисления дескрипторов используете? SURF, ORB что-то другое?
Есть еще SIFT.
А вот гораздо более интересный вопрос — что используется для поиска ближайших соседей?
Для поиска интересных точек мы используем DoG. А дескрипторы у нас свои. Но это не принципиально. Тот же SIFT вполне подойдет.

Что касается «ближайших соседей», то мы их, строго говоря, не ищем.
А кандидаты в дубликаты определяются с помощью визуальных слов.
Напишите пожалуйста, в конце статьи, список используемых технологий, а-ля в научных статьях пишут список использованной литературы.
Only those users with full accounts are able to leave comments. Log in, please.