Comments 7
Да, согласен, как раз планирую добавить р — это и подразумевается под one-shot learning в последней части статьи. Тем более для её реализации не нужна серверная часть. Пока самое большое препятствие для реализации — непонятно, как должен выглядеть интерфейс, чтобы было удобно и надо ли на один класс позволять грузить несколько фото (тогда это уже не one-shot learning и будет громоздко). Кроме того, до добавления этой идеи следует её потестировать на компе — могут возникнуть некоторые принципиальные проблемы с тем, на что именно обращается внимание. К примеру, если показать бородатого доктора в белом халате, то что будет ближе — фото бороды, халата или доктора-женщины? Ответ мне пока непонятен
Насколько пригодна эта сеть для задач не классификации, а, например, выявления координат объектов? То есть можно ли по эмбеддингу с выхода CLIP за малое число данных научиться отвечать на вопрос "где на картинке находится жёлтый треугольник?"
В целом для детекции (определения координат) объектов она не приспособлена. В оригинальной статье что-то из этого пытались сделать, но " it struggles on more abstract or systematic tasks such as counting the number of objects in an image and on more complex tasks such as predicting how close the nearest car is in a photo. "
С другой стороны, в oppenai использовали скорее близость к словеснлму описанию положения. Если попробовать вытащить эти данные из эмбеддингов, то может что-то получиться, но достаточно узкоспециализированное, например для определения координат человека - одна head- модель на эмбедингах, для собак - другая. Это скорее всего будет работать. Как сделать универсальную сеть, которая бы давала координаты чего угодно на картинке по текстовому запросу мне не понятно, как сделать. Хотя есть ощущение, что такая задача будет решена в ближайшее время
Играем с CLIP. Создаем универсальный zero-shot классификатор на Android