Pull to refresh

Comments 4

UFO just landed and posted this here
Интересно сделано, спасибо за статью.

Можно еще было что-нибудь дополнительно использовать из pre-trained сетей (условный imagenet, к примеру), чтобы вытащить дополнительную информацию для анализа.
Ну и любопытно во времени поглядеть, как меняются вкусы для фото-мест за год, к примеру.
В ходе разработки моего сервиса для построения интересных пешеходных маршрутов я изучал возможность использования данных соцсетей и фоточек из них для определения интересности места. Но там очень много подводных камней, и в реальности наивная идея «давайте выделим места, где больше фоточек, соединим их маршрутами и выдадим туристам» не работает и дает очень много погрешностей. Почему так:

1. Большое количество фоточек в каком-то конкретном месте вовсе не означает, что место интересно для туристов и стоит посещения. Очень много фотографий, например, делают в транспортных хабах: вокзалах, аэропортах. Селфи типа «всем чао, я на Мальдивы» на фоне самолетов за окном. А туристу, гуляющему, по городу там, разумеется, делать нечего (хотя бывают те же вокзалы которые сами по себе памятники архитектуры). Например в этой статье анализировали фоточки из Гонконга, там 2 из 6 основных кластеров фото во фликре — аэропорт и вокзал.
2. Фоточки могут иметь определенную сезонность или периодичность. Например в этом месте разово провели какое-то крутое мероприятие: концерт, карнавал и т.п. Люди наделали и напостили вагон фоточек, создав локальный кластер. Но больше такого мероприятия там не планируется, и месяц спустя туристу там уже делать нечего. В этой статье чтобы отфильтровывать такие темы анализировали теги, но все равно такие фото могут просачиваться и портить статистику, создавая «ложные» достопримечательности.
3. Фоточки постят не только туристы, но и местные жители. А у них могут быть совсем разные интересы, как описано в этой статье. Может быть куча кластеров фото вокруг, например, школ и детских садов, где местные жители фотографируют своих чад, но туристу это, опять же, не интересно.
4. По группам фотографий можно найти достопримечательности, но сложно построить удобный и интересный маршрут. Так как просто улицы обычно редко фотографируют. Люди фотографируются либо у достопримечательностей, либо в заведениях по сторонам улицы, понять из этого удобно ли идти по улице (вдруг это шумная пыльная многополосная магистраль) из соцсетей сложно.
5. Погрешности гео-тегов. В условиях плотной городской застройки GPS может давать серьезную погрешность, а при съемке внутри зданий вообще улетать черт знает куда. Поэтому точную привязку интересных объектов к улицам сделать сложно.

Ну и финальная точка, которая ставит крест на использовании этих данных для чего-либо кроме разовых исследований — это лицензия. У всех крупных соцсетей обычно довольно закрытые лицензии на контент: их нельзя парсить, нельзя сохранять полученную из них информацию, нельзя использовать их данные в своих коммерческих целях. За исследователями никто гоняться не будет, разумеется, но любая попытка использовать такие алгоритмы и их данные для создания коммерческого продукта (путеводителя, навигатора) рано или поздно встретится с проблемами.

В целом идея использовать данные соцсетей для рекомендаций маршрутов — это хорошая и полезная идея, но подводных камней на пути от proof-of-concept к реально работающему сервису там очень много. Собственно поэтму, видимо, таких сервисов в открытом доступе до сих пор и нет.
2. Фоточки могут иметь определенную сезонность или периодичность. Например в этом месте разово провели какое-то крутое мероприятие: концерт, карнавал и т.п. Люди наделали и напостили вагон фоточек, создав локальный кластер. Но больше такого мероприятия там не планируется, и месяц спустя туристу там уже делать нечего. В этой статье чтобы отфильтровывать такие темы анализировали теги, но все равно такие фото могут просачиваться и портить статистику, создавая «ложные» достопримечательности.
Да, это действительно имеет место, но как правило «места на раз» тонут среди постоянных, особенно если их фильтровать, например, по дате.

1. Большое количество фоточек в каком-то конкретном месте вовсе не означает, что место интересно для туристов и стоит посещения. Очень много фотографий, например, делают в транспортных хабах: вокзалах, аэропортах.
3. Фоточки постят не только туристы, но и местные жители. А у них могут быть совсем разные интересы, как описано в этой статье. Может быть куча кластеров фото вокруг, например, школ и детских садов, где местные жители фотографируют своих чад, но туристу это, опять же, не интересно.
Это ловит классификатор изображений: понятно, что туристу интересны места, помеченные как museum, promenade и restaurant, а не как office, schoolhouse и airport_terminal.
Sign up to leave a comment.

Articles