Pull to refresh

Comments 7

Спасибо за статью! 1. Мне кажется, что генерация модели Текст-вектор можно избежать) Есть же универсальная, по ней получаем N векторов для классификации и получив вектор картинки ищем ближайшие классификатора, причем расстояние до них — мера вероятности. 2. Много интересней лично мне поиск картинка — ближайшие картинки по 2-4 примерам. Слова искажают смысл больше чем изображения, а выявить общность по минимуму изображений в векторах аналитически — интересно. Предварительно CLIP вполне годится для этого. Согласны?

Да, согласен, как раз планирую добавить р — это и подразумевается под one-shot learning в последней части статьи. Тем более для её реализации не нужна серверная часть. Пока самое большое препятствие для реализации — непонятно, как должен выглядеть интерфейс, чтобы было удобно и надо ли на один класс позволять грузить несколько фото (тогда это уже не one-shot learning и будет громоздко). Кроме того, до добавления этой идеи следует её потестировать на компе — могут возникнуть некоторые принципиальные проблемы с тем, на что именно обращается внимание. К примеру, если показать бородатого доктора в белом халате, то что будет ближе — фото бороды, халата или доктора-женщины? Ответ мне пока непонятен

Ответ мне пока непонятен
Для этого и нужны 2-4 фото. чтобы сделать пересечение по компонентам. Вероятно из вектора можно выделить измерения, которые описывают нужный семантический фактор. остальные в игнор. Если CLIP простанство линейно и ортогонально по компонентам. Надеюсь что так.

Насколько пригодна эта сеть для задач не классификации, а, например, выявления координат объектов? То есть можно ли по эмбеддингу с выхода CLIP за малое число данных научиться отвечать на вопрос "где на картинке находится жёлтый треугольник?"

В целом для детекции (определения координат) объектов она не приспособлена. В оригинальной статье что-то из этого пытались сделать, но " it struggles on more abstract or systematic tasks such as counting the number of objects in an image and on more complex tasks such as predicting how close the nearest car is in a photo. "

С другой стороны, в oppenai использовали скорее близость к словеснлму описанию положения. Если попробовать вытащить эти данные из эмбеддингов, то может что-то получиться, но достаточно узкоспециализированное, например для определения координат человека - одна head- модель на эмбедингах, для собак - другая. Это скорее всего будет работать. Как сделать универсальную сеть, которая бы давала координаты чего угодно на картинке по текстовому запросу мне не понятно, как сделать. Хотя есть ощущение, что такая задача будет решена в ближайшее время

Интересно, а если побить картинку на квадраты и запрашивать текстовое описание каждого квадрата, то можно ли таким образом сделать обнаружение объектов? Но это, наверное, проверять надо, иначе непонятно.

Sign up to leave a comment.

Articles