Comments 24
«пока мы сами не повзрослеем и не начнем с уважением относится к тем людям, что доверили нам, часто даже неосознано, важную часть своей личной жизни» — пора взрослеть
Но моё имхо, что такое лучше писать личным сообщением автору, с дальнейшей просьбой написать пост для передачи отрицательного опыта, может с извинениями, с ссылкой на вас.
А так же вопрос к компаниям, которые передали записи разговоров для обучения — имели ли они право передавать(а не только записывать) их, без обезличивания.
И, просто чтобы быть последовательным — а вы проверяли, действительно ли это персональные данные, или же они псевдо-персональные, когда при подготовке слайда имя/фамилию звонящей в тексте заменили на случайные?)
Статью следовало бы назвать «особенности русской небрежности», потому что такое творится не только в дата сайенс. Хотя, в общем-то, от национальности это не слишком уж зависит.
Ну а то, что нас часто не волнуют те самые «рандомные тетки», данные которых мы анализируем, и то что мы не видим ничего страшного в расскрытии этих данных, это, имхо, очень и очень грустно…
А слово, тест, перед "Леночка" вас не смутило? Мне кажется, что оно там не случайно, ибо остальной текст с ним вообще не связан…
Так что это очень напоминает специальный разговор для тестирования сотрудников(например узнать как они отвечают клиентам по телефону)
На самом деле это всё (статья) партизанский маркетинг или продакт плейсмент для услуг клиники, врача или MIL, а возмущение раскрытием данных только предлог
<paranoia mode
А если серьёзно, ожидал увидеть статью подлинее и содержательней. Хотя тема и актуальная.
Спасибо, что обратили внимание на такой очевидный косяк.
Сразу отмечу, что данные здесь были полу-обезличенными — в датасете ФИО клиентов заменялись на рандомные. С адресами клиник никто не парился, никакой конфиденциальной информации в адресе клиники нет.
Впрочем, заблюрить все фамилии и адрес клиники — самое правильное решение, которое не вызвало бы неприятного осадка у части (пусть и небольшой) аудитории. В аналогичном кейсе на одном из следующих слайдов абсолютно вся личная информация клиента (номер телефона, ФИО, даже адрес магазина) замазаны. Чтобы избежать разрастания дискуссии из-за банальной небрежности, мы добавили серых прямоугольников на слайд, скриншот которого есть в этой статье, и перезалили слайды в гугл-диск с материалами :)
На будущее было бы клево сначала выяснять у автора вопросы про обезличенность данных, а уже потом оформлять справедливое недовольство в статью.
Еще, на мой взгляд, можно было бы улучшить название — позитивные формулировки всегда воспринимаются лучше. Согласитесь, «Как ускорить разработку модели в 10 раз» и «Как уволить 90% датасаентистов с помощью AutoML» воспринимается очень по разному, хоть и означает примерно одно и тоже…
Да, разумное замечание.
Учту :)
Уволить 90% кого-то и неистово сэкономить — это суперпозитивная формулировка.
Вся автоматизация, от ткацких станков до самоездящих повозок, делается именно ради этого. А если после автоматизации ещё и качество сервиса растёт — то это и деньги в квадрате, и шаг вперёд для человечества.
В развитых сообществах проблема технологической безработицы уже стоит в актуальной повестке дня и пока оптимальным вариантом решения считается поддержка трансфера лишающихся работы людей в новые области. А здесь ДС может очень много что предложить: и прямой трансфер через создание новых типов рабочих мест, например «МЛ-разметчик», и создание вторичных рабочих мест в около-ДС индустрии, и стимуляци развития трудоустройства по пир-ту-пир модели и много что еще. Так что, надеюсь, увидим мы и работы о том как ДС помог найти работу паре сотен тысяч человек — вот это будет заголовок.
Не думаю что что-либо подобное могло произойти в странах с более зрелым Data Science на западе и, скорее всего, на востоке
Вы правы, произошедшее крайне неэтично, но проблема на самом деле в другой плоскости. В конце-концов посетители конференции по тематике Data Science — едва ли не последние люди, кого могут заинтересовать личные данные пациента. А вот корень этой проблемы в отсутствии дисциплины хранения приватных данных на местах, в предприятиях, которые их собирают, обрабатывают и используют. Вообще не должна была произойти ситуация, когда инженер-разработчик мог вот так просто взять лог с личными данными с продакшена и понести его на конференцию. Даже если он сам об этом не подумал (а что с нас, с ботаников, возьмёшь? ;-), то на предприятии должен быть специалист по защите данных, который этот вопрос контролирует и регулирует.
За халатность нужно спрашивать, желательно с ощутимыми последствиями.
Пара мыслей об особенностях Российского Data Science