Comments 10
Без обид, но попахивает лютым оверинжинирингом и задачей ради процесса решения, а не результата.
Понимаю, что задача определения автомобиля по фото это прям серьёзный интересный вызов уровня FAANG, и хорошо, когда хозяин бабла готов оплачивать такой опыт. Но, если говорить о коммерческой части, то вижу следующее:
Прежде всего, судя по фоткам-примерам, где все кейсы максимально простые, подобный результат можно получить и сильно проще. Например, поиском госномера на картинке и последующим поиском логотипа над номером.
Идем дальше. Раз уж несложно доставать госномер (а это задача прям затяганная, как предсказание утонувших на титанике), то не дешевле ли поискать базу номеров, и по ней получать модель. Скорее всего, в РФ это может быть незаконно, но, как говорится, на что не пойдёт капиталист… А цена базы может быть ух как дешевле, чем работа датасаентистов.
Ок. Вы научились определять. Глазами посмотрели. Все ок, красиво. Но! Теперь идем к выводам. Если цель — делать реально полезные статистические выводы, то надо и не забывать об условных вероятностях. А о них в тексте ни слова, хотя они могут сломать тему напрочь. Например, нейросеть определяет BMW из за более характерных черт кузова, как ноздри, на 30% лучше, чем Toyota, но вы об этом не знаете -> привет перекос в исследованиях вида "на какой машине ездит наш клиент". Или ещё, предположим, что девушки реже фоткаются около свой машины, чем парни -> получаем перекос в соцдем исследованиях. Продолжать можно очень долго.
Вы правы, задача действительно решается сложным путём и выглядит как оверинжиниринг. Мы бы хотели сделать решение проще. Были даже предприняты несколько подходов, в основном связанные с текстами. Но получилось плохо, всё равно оставалось множество нерелевантных запросу примеров.
Если бы была законная возможность иметь доступ к базе номеров, то мы скорее всего пошли бы именно таким путём. Но тогда встает вопрос: что делать с фотографиями на которых номер либо не виден, либо скрыт?
И вы снова абсолютно правы на счет смещения в статистических исследованиях. Кажется, что сделать не смещенное статистическое исследование основанное на социальной сети не простое занятие. На мой взгляд, эта тема выходит за рамки текущей статьи. Спасибо за пищу для размышлений, мы постараемся подготовить материал на эту тему. :)
В защиту текущей модели могу добавить, что собирать отчёты с минимальным привлечением человека стало проще.
Необязательно даже искать логотип над номером, есть сайты, которые дают и модель авто
По ним среднестатистический портрет строить нерелевантно
Поиск автовладельцев в Instagram: от хвостов китов до автомобилей