Comments 38
Подход был похожий, основную боль вызывали рандомные блокировки моего миникраулера со стороны auto.ru при сборе датасета. В итоге удалось на catboost'e при помощи линейной регрессии соорудить вполне жизнеспособное решение без каких-либо ML'ных изысков, но вот вакансия к тому моменту закрылась :)
Минус — намного больше геморроя, чем с Selenium, времени на настройку и отладку уходит больше, сам сбор данных работает дольше, надо парсить полученные html, работает только в винде.
Плюс — стопроцентная эмуляция кликающего в браузере юзера, невозможно задетектить в принципе (ок, в принципе возможно, если анализировать скорость и траекторию движения мышки или регулярность частоты кликов, но и в это можно добавить рандома, максимально приблизив к обычному юзеру).
Нормально настроенное на определенный сайт и отлаженное, такое поделие скрапит сайт не менее надежно, чем селениум.
Мой ответ совсем не бесполезен! Он показывает, что это возможно!
Однажды один ̶ч̶е̶л̶о̶в̶е̶к̶ подонок рассказал мне, что продавая банки кофе научился вскрывать мембрану из фольги отсыпать хороший кофе и досыпать дешевый. Мембрану потом как-то обратно запаивал.
На вопрос как это делать он ответил: «На таких знаниях состояния делаются!»
Но на вопрос в личке я отвечу, я не жадный
1. Большое кол-во хозяев за небольшой промежуток времени.
2. Подсвеченную красным проверку по VIN.
3. Странные идентификаторы или шаблоны в описании.
4. Низкую цену относительно комплекса базовых параметров (год, пробег, комплектация, двигатель, тип кпп, итд).
(Может ещё что-то забыл)
Всё что частично или в комплексе подпадает под эти критерии — должно настораживать. При этом не зависимо от глубины проведённой аналитики правду удастся узнать лишь увидев машину, продавца и документы в живую (и то не в 100% случаев).
Я выбрал по формальным параметрам машину, приехал за 700 км и оказалось, что на фото всё хорошо, а глазами видно столько мелочей, что совсем не хочется покупать. В итоге взял машину ниже классом, но новее, с ДТП формальным, и дороже. И только зря время потратил и деньги на пробив десятка моделей, которую хотел взять изначально.
По идее интересная модель заработка — отбираем и покупаем сильно недооцененные автомобили и затем выставляем их по рыночной цене. Я бы еще добавил обработку по регионам, чтобы понять где можно купить данное авто подешевле, а где продать подороже и перевозить авто трейлерами, чтобы было ближе к дому, как отметил автор поста.
По-сути получается полностью автоматизированная система с минимальным участием человека в принятии решений.
P.S. Я себе бюджет планирую: собрал банковские выписки (все траты со всех банков) за несколько лет -> получил сезонку -> использовал как веса при планировании операционных затрат. Да, модель весьма специфична, работает далеко не для всех: несколько лет как стараюсь жить на одну и ту же сумму в месяц (+- сезонка). Поэтому мне подходит.
Отличная статья.
Я с самого начала ожидал, что пробег и год влияет на цену. Так и оказалось :)
Делал похожий анализ. Мне показалось интересным сравнивать скорость паления цены на машину с пробегом или годами.
Некоторые падают быстрее ( французы все приходят к нулю через 3 года исчезают) некоторые падают медленнее ( немцы кроме vw).
Некоторые сильно сбрасывают цену в начале (выезд из салона) но потом достаточно долгое плато. Вот такие и нужны на вторичке. Купил Вольво в результате.
Вероятно, самыми шокирующими результатами из всех стали те, которые указывают на разницу в цене между SLE и Denaliвот это серьёзно? без шуток?
а если посчитать время, потраченное на добывание и вылизывание выборки, да на почасовую ставку такого специалиста, какая экономия выйдет?
когда коту делать нечего…
1. датасатанист — сущность бессмысленная. Ибо рисует отчёты в стиле КО, а ЗП просит огого.
2. ИТшники ботаны, кто так машину выбирает?
1. Главное не картинки а модель, а точнее поддержка принятия решения
2. Интуицию и экспертное мнение никто не отменял, но подтвердить достоверность при помощи матеши — это аргумент.
3. Пример в статье скорее игрушечно — фановый, в реальной работе ДСа данных намного больше и критериев для выбора решения тоже.
Есть сайт, robasta.ru, то же самое делает, автор здесь про него рассказывал.
Метод заключается в следующем: вы идете в магазин, ближайший к вашему дому, показываете на машину, ближайшую к двери, и говорите: «Я беру эту». Этот алгоритм оптимален по одному важному показателю: он позволяет тратить минимум времени на не очень важные дела (покупку автомобилей) и оставляет большую часть времени на важные (разработку суперкомпьютеров).
В те времена гики милиардерами становились, а он всю жизнь скакал от банкротства к банкротству, в перерывах работая на ЗП (возможно и неплохую).
Ну и машины выбирать есть способы лучше…
Следует отметить, что у многих русских, в отличие от буржуев, машина — почти член семьи ;) хотя потреблядство, конечно понемногу заполоняет.
Как дата-сайентист машину покупал