Дедупликация объявлений на Яндекс.Недвижимости / Комментарии / Хабр

nerudo 24 июн 2019 в 20:21

Расшифруйте что значит 98% точности и 93% полноты. Иногда выкидывались не дубли?
В случае дубля кого оставлять, а кого выкидывать?

Frohman 24 июн 2019 в 20:37

Точность (precision) и полнота(recall) — стандартные метрики оценки качества. Precision= TruePositive/(TruePositive+FalsePositive), Recall = TruePositive/(TruePositive+FalseNegative)

love_camel_case 24 июн 2019 в 20:47

Точность — это отношение числа правильно классифицированных офферов к общему числу объектов. То есть в 98% случаев пара, помеченная алгоритмом как дубликат, действительно является таковой. Отвечая на следующий вопрос — да, примерно в 2% случаев алгоритм ошибался, называя пару квартир одинаковыми, хотя они таковыми не являлись. Полнота здесь — это доля офферов, классифицированных правильно, деленная на размер всего класса дубликатов, то есть это число, показывающее насколько большую часть дубликатов алгоритм способен находить. Более формально можно почитать тут.
Дубликаты не удаляются, просто с помощью некоторых эвристик объединяются в один оффер.

nerudo 24 июн 2019 в 20:50

То есть под одним «оффером» будут все три объявы каждая со своими контактами? Тогда хорошо.

akryukov 24 июн 2019 в 20:32

При чем тут хаб "учебный процесс в IT"?

katyateria 24 июн 2019 в 20:53

Добавила, потому что это рассказ об учебной практике в CS центре. Пересмотрела посты в хабе — вы правы, поправила)

sshikov 24 июн 2019 в 21:04

Мы анализировали такие же объявления из других источников, и что могу сказать:
— зачастую данные не заполнены. В нашем случае, например, этаж зачастую можно было извлечь только из текстового комментария, что является само по себе нетривиальной задачей NLP
— даже если заполнены, то например, наличие двух и более одинаковых объектов, со всеми совпадающими параметрами, является вполне возможным вариантом. Например, две квартиры одинакового метража в одном доме, на одном этаже, два офисных помещения в одном офисном центре. При этом нет буквально никаких признаков, которые позволяли бы считать эти объявления дублями, или же нет. Точнее, есть — номер квартиры или офиса, например. Но его почти никогда не бывает в объявлении (потому что опубликуй его — и посредники в виде сайта уже и не нужны).
— идентичные по всем параметрам объекты могут все еще сильно отличаться по цене, в лучшем случае причина для такого отличия описана в тексте (и тогда снова NLP, да и то задача плохо формализуется, потому что описание ремонта, оно такое...), а в худшем — не описана вообще нигде. Типовой пример — торговые площади в ТЦ, где размещение на этаже является одним из показателей, влияющих на ставку аренды.
— некоторые параметры вполне можно додумать или валидировать, если мы знаем характеристики здания, например, то же число этажей в нем, или класс офиса, или проект дома — на основе этого можно вычислить многое, а зная адрес, теоретически можно понять вообще все.
— и тем не менее, даже если вы знаете, что в таком-то ТЦ сдаются две торговые площади с одинаковыми параметрами, а у вас имеется три объявления, вряд ли что-то вам позволит понять, два тут дубля или же один.

А то, как задача тут описана, на мой взгляд вообще пока ни о чем.