Comments 40
Вспоминая, например, утечку смс из Мегафона: «Где гарантии, что эти данные не утекут после взлома?».
Зарабатывать деньги на том, что приносишь клиентам пользу — намного круче, чем быть мерзкими упырями и обманывать людей (к тому же это противозаконно). На сайте реквизиты компании и оферта с условиями использования, там прописано, как мы обращаемся с данными.
Если представить себя на месте таких ребят, то логика следующая «Мои клиенты чаще всего нарушают закон, отдавая нам на обработку персональные данные физ. лиц, т.к. почти всегда их согласие не спрашивается, ведь необходимо обработать форму ещё до того, как клиент сделал заказ. Плюс в оферте у меня написано:

4.1 Исполнитель не передает третьим лицам, и не использует иным способом, не
предусмотренным условиями договора, обрабатываемую информацию
Пользователя.

где „по условиям договора“ я могу делать всё, что хочу:

3.2 «Стандартизация»: сервис нормализации контактных данных —
автоматизированная обработка данных из файлов или посредством API без
участия Оператора.

Термин „обработка“ максимально широк, хоть саму передачу третьим лицам обещают не делать
Тот случай когда тебе предлагают отличный сервис, а он оказывается запрещен странным законом.
Продайте свои услуги спамерам, пожалуйста, а то ведь бывает по 4-5 одинаковых спам-писем за день, даже читать неинтересно.
А как Вы собираетесь получать согласие человека на обработку его персональных данных (согласно федерального закона «О персональных данных»)? Ведь если Ваш клиент и получил от своего абонента согласие на обработку его данных, но этот клиент никак не мог получить согласие на делегирование процесса обработки третьими лицами?
Часто такое разрешение даётся. Во многих бланках согласия на обработку есть стандартная формулировка, касающаяся передачи ПДн третьим лицам.
Везде сталкивался с тем, что берут согласие на передачу третьим лицам персональных данных. Там есть строчка, что третьим лицам разрешается еще и их обработка?
Должно быть указано с какими целями будет осуществляться передача.
Если два брата-близнеца, Иванов Алексей Иванович и Иванов Александр Иванович проживают по одному адресу и имеют один домашний телефон, их система посчитает одинаковыми и сольет в один контакт?
Сразу песенка Слепакова приходит на ум, Два Кирила, Два Кирила…
А такие случаи обрабатываете?
Научной базы маловато под статьёй. Крупнейшие компании есть в проектах, а всё исповедуется подход «Третий сорт не брак».
На выборках в 1000 записей сработает ключ уникальности «ФИО+Дата Рождения», а на стране — даже «ФИО+Дата рождения + Место рождения» не срабатывает иногда.
и да FAR / FRR какие при разборе? Прямая и обратная ошибка при дедубликации.
Было бы неплохо увидеть реализацию в виде приложения для андроид для дедупликации адресной киниги.
Ну да, классическая задача MDM =)
Свое решение под капотом используется, или от известного вендора, типа Quality Stage или MDM Server?
Если свое, то на основе какого подхода ищете дублоны? частотный анализ? нейросети?
Что с локализацией? есть ли правила для нормализации иностранных адресов?
Свое (HFLabs), специализируемся на российских данных. Разбиваем все множество записей на сегменты, дальше внутри сегмента сравниваем кандидатов по куче сценариев. С учетом нюансов вроде разночтений в ФИО и частичной похожести адресов на уровне дроби-корпуса-строения-квартиры.
Оплата за строку как-то дорого выходит. Была бы подписка месячная, можно было бы подумать.
А какая у вас задача? Какие есть более подходящие варианты решения?
Лично мне сервис не очень нужен, но маркетинг шикарен, статья убеждает, респект. Мне бы в юридическую фирму такой маркетинг.
Спасибо! Для юристов может быть полезен другой сервис — подсказки: быстро получить всю информацию по адресу или организации.
А по КЛАДРу (или что там сейчас вместо него) адреса проверяет?
Обязательно. Адреса приводит к ФИАС (это наследник КЛАДР) и восстанавливает доп. информацию (координаты, часовой пояс). Приводит к единому виду ФИО и телефоны, исправляет опечатки.
Мне ваш сервис по профессии не нужен, но статья — идеальный образец того, как надо представлять свои продукты публике. Описание проблемной области, критика наивных решений, предложение собственного решения, цены/условия.

Супер.
Сервис ничего из данных не удаляет. Возвращает два состояния входного набора данных: «до слияния» и «поcле слияния». В первом похожие и одинаковые записи сгруппированы, но не объединены. Во втором — одинаковые объединены.

До слияния:


После слияния:
Знакомая проблема… Работаете по российским установочным данным? На Украину не смотрели?
A вы пoддepживaeтe мexaнизмы oбфуcкaции, или нaпpимep вклинивaниe пoльзoвaтeлями вcякиx “нeвидимыx” юникoдныx cимвoлoв пpямo в дaнныe? Haпpимep, вoт этoт мoй комментарий не совсем обычный, xoтя c виду мoжeт и нe paзoбpaть.
Классный сервис! Не предусматриваете ли продажу или предоставление по подписке оффлайн-решения?
Спасибо! Да, есть оффлайн-версия (Фактор). Стоит сильно дороже, чем облачный вариант. Если интересно, пишите в личку, обсудим.
Ух ты! А на какой порядок цен ориентироваться, хоть примерно? Просто бывают бешеные заказчики, что живут в закрытых сетях, где интернетов отродясь не было. И вдруг им потребуется мало того, что распарсить адреса, что были напечатаны лапой макаки в безумстве, а ещё и загеокодировать… Блин, уже страшно :-) Коли такой случай возникнет, будем вас рассматривать.
Only those users with full accounts are able to leave comments. Log in, please.