tim_kadyrov Aug 6 2020 at 07:47

Поиск автовладельцев в Instagram: от хвостов китов до автомобилей

9 min

4.9K

OKKAM Group corporate blogMachine learning*Display advertising*Artificial IntelligenceSocial networks and communities

Technotext 2020

+15

Comments 10

algotrader2013 Aug 6 2020 at 15:31

Без обид, но попахивает лютым оверинжинирингом и задачей ради процесса решения, а не результата.
Понимаю, что задача определения автомобиля по фото это прям серьёзный интересный вызов уровня FAANG, и хорошо, когда хозяин бабла готов оплачивать такой опыт. Но, если говорить о коммерческой части, то вижу следующее:
Прежде всего, судя по фоткам-примерам, где все кейсы максимально простые, подобный результат можно получить и сильно проще. Например, поиском госномера на картинке и последующим поиском логотипа над номером.
Идем дальше. Раз уж несложно доставать госномер (а это задача прям затяганная, как предсказание утонувших на титанике), то не дешевле ли поискать базу номеров, и по ней получать модель. Скорее всего, в РФ это может быть незаконно, но, как говорится, на что не пойдёт капиталист… А цена базы может быть ух как дешевле, чем работа датасаентистов.
Ок. Вы научились определять. Глазами посмотрели. Все ок, красиво. Но! Теперь идем к выводам. Если цель — делать реально полезные статистические выводы, то надо и не забывать об условных вероятностях. А о них в тексте ни слова, хотя они могут сломать тему напрочь. Например, нейросеть определяет BMW из за более характерных черт кузова, как ноздри, на 30% лучше, чем Toyota, но вы об этом не знаете -> привет перекос в исследованиях вида "на какой машине ездит наш клиент". Или ещё, предположим, что девушки реже фоткаются около свой машины, чем парни -> получаем перекос в соцдем исследованиях. Продолжать можно очень долго.

-1

tim_kadyrov Aug 6 2020 at 16:31

Никаких обид! Тем более это очень здоровая критика.
Вы правы, задача действительно решается сложным путём и выглядит как оверинжиниринг. Мы бы хотели сделать решение проще. Были даже предприняты несколько подходов, в основном связанные с текстами. Но получилось плохо, всё равно оставалось множество нерелевантных запросу примеров.
Если бы была законная возможность иметь доступ к базе номеров, то мы скорее всего пошли бы именно таким путём. Но тогда встает вопрос: что делать с фотографиями на которых номер либо не виден, либо скрыт?
И вы снова абсолютно правы на счет смещения в статистических исследованиях. Кажется, что сделать не смещенное статистическое исследование основанное на социальной сети не простое занятие. На мой взгляд, эта тема выходит за рамки текущей статьи. Спасибо за пищу для размышлений, мы постараемся подготовить материал на эту тему. :)
В защиту текущей модели могу добавить, что собирать отчёты с минимальным привлечением человека стало проще.

rinatsakaev Aug 7 2020 at 10:10

Необязательно даже искать логотип над номером, есть сайты, которые дают и модель авто

tim_kadyrov Aug 7 2020 at 10:16

Возможно, мы плохо исследовали вопрос. Не подскажите какие сайты и сколько стоит 1000к распознований? Например, cloud vision api гугла нам не подошёл. Но даже если бы он умел хорошо определять модель авто, то при наших объемах его стоимость обходилась бы космических денег.

rinatsakaev Aug 7 2020 at 10:19

Видимо, невнимательно статью прочитал. Вот здесь можно поискать по номеру и получить модель. Но это не решает вашего вопроса, так что извиняюсь.

celsior Aug 25 2020 at 15:21

или nomerogram

acsent1 Aug 7 2020 at 12:00

люди с большим количеством подписчиков — это особенные люди ака блогеры.
По ним среднестатистический портрет строить нерелевантно

algotrader2013 Aug 7 2020 at 13:29

Вот это уже классика условных веротяностей

tim_kadyrov Aug 7 2020 at 14:21

Всё верно. Они и не используются для построения портрета потребителя. Пример был показан скорее как еще одно применение модели. Ведь если есть инструмент, то его можно попробовать использовать для разных целей.

lasc Aug 10 2020 at 03:28

берется интересующая марка — обьявляется липовый рекол, получаем имена и адреса владельцев — ПРОФИТ!

-1