Pull to refresh
95
0
Максим Пименов @DEADStop

Маркетинг и контент в IT

Send message

Есть ли кому-то дело до утечек персональных данных?

Reading time1 min
Views4.6K

Мы в HFLabs с 2005 года обрабатываем персональные данные в промышленных масштабах. И решили провести опрос среди айти-специалистов по поводу крупных утечек.

Давайте все вместе выясним, есть ли кому-нибудь дело до недавних инцидентов. В последнее время данные массово утекли как минимум из «Яндекс.Еды», Delivery Club и Geekbrains. Пожалуйста, расскажите, насколько эти события затронули вашу компанию.

В форме всего 10 вопросов, на большинство достаточно ответить «Да» или «Нет» forms.gle/BtH19mhUpZ3CzBD17.

Опрос анонимный. Если оставите емейл, мы пришлем на него результаты. Но в любом случае выложим их в нашем телеграм-канале «HFLabs — о данных».

Пройти опрос
Total votes 19: ↑11 and ↓8+3
Comments3

Челленджи, лысые головы и вино. Как мы в HFLabs переживаем самоизоляцию

Reading time7 min
Views4.5K


В HFLabs работают 82 человека — из них ≈70 [было] в московских офисах. Самоизолировались, конечно. Но дома скучно или, наоборот, чересчур суетно — например, когда ты заперт в однушке с детьми. Работать так днями напролет — тяжеловато.

Уже на вторую неделю карантина главные бодряки компании задумались, как разнообразить трудовые будни. И накидали решений. Расскажу, что нового появилось в корпоративной, не побоюсь этого слова, культуре HFLabs за последнее время.

Методы HFLabs подойдут не каждой компании. Если у вас принято застегиваться на все пуговицы, быть подчеркнуто серьезным и деловым, развлечения из этой статьи не зайдут.
Читать дальше →
Total votes 24: ↑20 and ↓4+16
Comments5

Как определить оператора и регион по номеру телефона

Reading time6 min
Views138K


Полезно знать, какого телефонного оператора выбрал клиент и в каком регионе. Тогда можно разбить клиентскую базу географически и не звонить ночами. Или проводить промоакции вместе с операторами. А некоторые наши заказчики экономят: для каждого оператора выбирают самого дешевого СМС-агрегатора.

Поэтому «Дадата» с давних пор находит оператора по номеру телефона. Алгоритм простой — сделай и пользуйся. Разве что в 2013 году, когда отменили «мобильное рабство», пришлось чуть скорректировать процесс. В этой статье расскажу, как у нас все работает.

В процессе есть большая сложность — получить доступ к базе перенесенных номеров. Частным лицам его не выдают, да и компаниям придется тяжело. Об этом — в отдельном разделе.
Читать дальше →
Total votes 14: ↑14 and ↓0+14
Comments33

Как посчитать «похожесть» номеров в паспортах. И найти одинаковые даже с опечатками

Reading time5 min
Views10K


Продукты HFLabs ищут дублированных клиентов в базах федеральных компаний. Очевиднейший способ найти одинаковые клиентские карточки — сравнить паспорта или другие документы, удостоверяющие личность.

Раньше мы сравнивали номера документов строго: одинаковые — отлично, нет — извините. На ручной разбор из-за опечатки в номере уходили даже те карточки, у которых совпадали ФИО и адреса́ проживания. Такой подход излишне нагружал персонал заказчиков.

Поэтому мы с головой залезли в данные, изучили статистику и вывели критерии — когда разные номера действительно разные, а когда дело в опечатках. Рассказываю, как работает алгоритм.
Читать дальше →
Total votes 16: ↑15 and ↓1+14
Comments22

Как проверить паспорт на действительность

Reading time6 min
Views201K


Реквизиты паспорта — не просто набор цифр, в них закодирован вагон информации. Если правильно расшифровывать и сопоставлять реквизиты, подозрительные документы мгновенно всплывут на поверхность. Продукты HFLabs уже 14 лет проверяют клиентские данные в банках, страховых, телекомах и другом крупном бизнесе. Расскажу, как мы распознаем ошибки в российских паспортах.
Читать дальше →
Total votes 134: ↑132 and ↓2+130
Comments258

Как наладить поиск адреса по координатам (и где взять нужный справочник)

Reading time10 min
Views39K


Весной мы добавили в API DaData.ru фичу «Обратное геокодирование», она же «Адрес по координатам». Название намекает: метод принимает геокоординаты и отдает данные об адресе.

Солидный продукт с той же функциональностью предлагает «Яндекс» — он называется «Геокодер». Но сервис «Яндекса» бесплатен только для открытых некоммерческих проектов. Стандартный же тариф — от 120 000 ₽ в год — подходит не всем.

Мы подумали — если сделать бесплатную или недорогую альтернативу «Геокодеру», разработчики наверняка скажут спасибо. И сделали. В статье расскажу, как устроен «Адрес по координатам»: как мы наладили поиск, собрали справочник и упаковали в готовый метод.
Читать дальше →
Total votes 31: ↑31 and ↓0+31
Comments33

Собрали всем «Хабром» справочник «Кем выдан…» для паспортов. Качайте на здоровье

Reading time5 min
Views52K


С пару месяцев назад мы поэкспериментировали: получится ли на «Хабре» собрать годный справочник подразделений, выдавших российские паспорта. Дело полезное: эти данные нужны много кому, канонического источника нет, а существующие — очень так себе.

И знаете, все получилось. Пригодный к использованию справочник готов, можно качать и пользоваться. А еще мы сделали подсказки, которые ускоряют ввод подразделений в электронные формы.
Читать дальше →
Total votes 57: ↑56 and ↓1+55
Comments99

Эксперимент: собираем справочник подразделений, выдавших паспорт

Reading time2 min
Views23K


Самое утомительное поле при вводе паспорта — «Кем выдан». Вбивать в форму какое-нибудь «Отделом внутренних дел Медведевского района республики Марий Эл» муторно. Люди злятся, сокращают название как придется, ошибаются.

Было бы здо́рово подсказывать варианты по коду подразделения.
Читать дальше →
Total votes 44: ↑43 and ↓1+42
Comments77

Данные бывают смешными (и вот примеры)

Reading time4 min
Views23K


Мы в HFLabs перелопачиваем колоссальное количество данных: адреса, ФИО, реквизиты компаний, документы. Весь год писали о сложных и полезных штуках, но пора и честь знать. Перед праздниками — подборка смешных данных, что нам принес 2018-й.
Читать дальше →
Total votes 49: ↑49 and ↓0+49
Comments69

Редактируем CSV-файлы, чтобы не сломать данные

Reading time5 min
Views237K


Продукты HFLabs в промышленных объемах обрабатывают данные: адреса, ФИО, реквизиты компаний и еще вагон всего. Естественно, тестировщики ежедневно с этими данными имеют дело: обновляют тест-кейсы, изучают результаты очистки. Часто заказчики дают «живую» базу, чтобы тестировщик настроил сервис под нее.

Первое, чему мы учим новых QA — сохранять данные в первозданном виде. Все по заветам: «Не навреди». В статье я расскажу, как аккуратно работать с CSV-файлами в Excel и Open Office. Советы помогут ничего не испортить, сохранить информацию после редактирования и в целом чувствовать себя увереннее.

Материал базовый, профессионалы совершенно точно заскучают.
Читать дальше →
Total votes 31: ↑30 and ↓1+29
Comments32

Подсказки «Дадаты» помогают заполнить любые формы ввода. Теперь заживем

Reading time4 min
Views6.5K


«Подсказки» помогают быстро и без ошибок заполнить поля ввода на сайтах и в CRM.

Данные для подсказок мы берем из разных справочников, раньше их было всего пять: ФИО, емейлы, почтовые адреса, реквизиты компаний и банков. С самого первого релиза нас просили добавить в «Подсказки» то один справочник, то другой. Мы бы и рады были, да не могли. Зато теперь можем!

С июля «Подсказки» понимают любые датасеты в формате CSV: марки автомобилей, валюты, торговые точки, хоть имена близких.

Теперь пользователи быстро и без ошибок вводят что угодно.
Читать дальше →
Total votes 22: ↑22 and ↓0+22
Comments11

Как интернет-магазины теряют деньги из-за адреса в форме заказа

Reading time3 min
Views44K


Давненько мы не разбирали формы заказа. В этом выпуске — две ошибки, из-за которых интернет-магазины и службы доставки постоянно теряют деньги. А клиенты при этом вообще раскаляются.
Читать дальше →
Total votes 60: ↑55 and ↓5+50
Comments203

Боремся с ошибками и «костылями» в ЕГРЮЛ — госреестре юридических лиц

Reading time6 min
Views10K


На прошлой неделе мы выпустили статью про устройство ЕГРЮЛ — госреестра с данными 10 миллионов компаний. Тот материал рассказывает о базовых вещах, поэтому начать лучше с него.

Здесь же мы раскроем богатую и благодатную тему — проблемы ЕГРЮЛа, которые не дают нашим разработчикам заскучать.
Продолжаем разговор
Total votes 21: ↑21 and ↓0+21
Comments13

Как устроен ЕГРЮЛ — единый госреестр юридических лиц

Reading time5 min
Views29K


ЕГРЮЛ — это государственный реестр юридических лиц, в котором хранятся данные 10 миллионов российских компаний. Управляет справочником ФНС.

Из ЕГРЮЛ мы берем данные организаций для «Подсказок», «Единого клиента» и «Фактора». В статье расскажем, как мы жили до справочника, как получаем к нему доступ и как с ним работаем.
Читать дальше →
Total votes 31: ↑31 and ↓0+31
Comments24

Как устроены адресные подсказки «Дадаты»

Reading time6 min
Views16K


«Дадата» с 2014 года пилит «Подсказки». Они помогают быстро и без ошибок вводить контактные данные: адреса, реквизиты банков и компаний, емейлы — вот это все.


Штука устроена затейливо, и мы решили о ней рассказать. Возьмем подсказки по адресам, потому что они самые сложные.


Справочники и индексация


«Подсказки» знают, что подсказывать, потому что у них есть гигантские справочники. Хоть статья эта о подсказках по адресам, для пользы дела перечислю и другие справочники «Дадаты».


Читать дальше →
Total votes 37: ↑37 and ↓0+37
Comments10

Пошел ты на три веселых слова! Новое геокодирование и what3words.com

Reading time4 min
Views22K


В 2013 году два айтишника и музыкант собрались и подумали: давайте разобьем всю Землю на квадраты, а потом пометим каждый квадрат тремя словами. И разбили. И пометили.

Получился бесплатный сервис what3words.com, который замахнулся на революцию в геокодировании. Ребята уверяют, что почтовые адреса и координаты не годятся для повседневной жизни. Пора от них отказываться там, где возможно.
Почтовый адрес GPS-координаты Адрес What3words
Россия, Москва, Турчанинов переулок,
д 6 стр 2
55.737208, 37.597091 Именины.птичий.туннель
Казалось бы, таких революционеров пруд пруди, но у what3words.com есть важное отличие: сервис взлетел. Им пользуются автопроизводители вроде Land Rover, правительства африканских стран и даже ООН.
Читать дальше →
Total votes 45: ↑41 and ↓4+37
Comments52

Задача со звездочкой: как мы перекодировали ФИАС в КЛАДР

Reading time8 min
Views16K


С 1 января ФНС перестанет обновлять адресный справочник КЛАДР. Он официально устареет, останется один ФИАС. Но многие промышленные системы до сих пор работают с КЛАДР. Поставщики не собираются их обновлять, а переделывать своими руками бизнесу выходит долго и дорого.

Мы послушали клиентов и придумали решение: взять ФИАС, который живее всех живых, и написать перекодировщик в КЛАДР.

Со стороны задача кажется легкой. Нам так и говорили: «То есть вы просто берете ФИАС и переделываете в КЛАДР?». На деле никакого «просто» нет. У справочников совсем разные структуры и непонятно, как из подкачанного ФИАС раскидать данные в неказистый КЛАДР. При этом общей документации для справочников нет.

Это было веселье, которым мы сейчас щедро поделимся.
Читать дальше →
Total votes 41: ↑39 and ↓2+37
Comments11

Как «Дадата» ищет дубли в списках торговых точек. Разбираем алгоритм

Reading time4 min
Views6.3K


Наши клиенты хранят списки из тысяч компаний, и обычно там первозданный хаос.

Возьмем список торговых точек, через которые сельхозпроизводитель продает товары по всей стране. Названия магазинов пишут как хотят, поэтому типичный список выглядит так:

  1. Евразия.
  2. «САКУРА» Японская кухня.
  3. Доминант.
  4. Магазин-бутик «Евразия».
  5. Милениум, ООО, продуктовый магазин.
  6. Киви/ООО/Челябинск.
  7. Супермаркет эко-продуктов «Доминант».

Точки № 1 и № 4 — дубли, № 3 и № 7 — тоже, но поди разберись.

А разобраться надо: когда в списке из 1000 торговых точек 300 дублей, у производителя начинаются проблемы.
Что за проблемы и как мы их решаем
Total votes 24: ↑22 and ↓2+20
Comments14

Что можно узнать о квартире из открытых справочников

Reading time6 min
Views59K


Госструктуры выкладывают в интернет справочники с десятками гигабайтов информации. Если знать где искать, можно легально собрать данные о квартирах в промышленных масштабах.

Базы с индексами и районами городов тоже открыты. Бонусом я расскажу, как найти эти части адреса, если их не хватает.

Все справочники из этой статьи бесплатны и открыто лежат в интернете. Ни один не украли из ФСБ таинственные хакеры.
Шагнуть в мир открытых справочников
Total votes 62: ↑61 and ↓1+60
Comments24

Information

Rating
Does not participate
Location
Йошкар-Ола, Марий Эл, Россия
Works in
Date of birth
Registered
Activity

Specialization

Marketing Director
Lead