Pull to refresh

Comments 24

Это, конечно, же сильно — возмущаться раскрытием персональных данных и тут же самому их раскрывать. Теперь я знаю, что Кочеткова Ирина Александровна работает в означенной больнице, что она маммолог, что принимает по адресу такому-то.
«пока мы сами не повзрослеем и не начнем с уважением относится к тем людям, что доверили нам, часто даже неосознано, важную часть своей личной жизни» — пора взрослеть
Очень полезно и правильно вы указали на недочет(=серьезная ошибка) спикера.
Но моё имхо, что такое лучше писать личным сообщением автору, с дальнейшей просьбой написать пост для передачи отрицательного опыта, может с извинениями, с ссылкой на вас.

А так же вопрос к компаниям, которые передали записи разговоров для обучения — имели ли они право передавать(а не только записывать) их, без обезличивания.
В целом справедливо. Но мое намерение в данном случае не обвинить спикера (его имени здесь даже нет), а донести до сообщества важность отслеживания таких кейсов в своих публичных презентациях.
Это, конечно, верно. Не стоит нарушать законы, даже в малом. Но, заходя под кат, я ожидал чего-то более серьезного, чем «обожемой, теперь несколько программистов дата сайентистов знают, как зовут одну рандомную тетку, попытавшуюся записаться к врачу».

И, просто чтобы быть последовательным — а вы проверяли, действительно ли это персональные данные, или же они псевдо-персональные, когда при подготовке слайда имя/фамилию звонящей в тексте заменили на случайные?)

Статью следовало бы назвать «особенности русской небрежности», потому что такое творится не только в дата сайенс. Хотя, в общем-то, от национальности это не слишком уж зависит.
Обычно о том что данные были откорректированны перед пбликацией всегда говорят явно, здесь такого не было. И, как я уже сказал, буду очень рад если ошибусь и имена были откорректированны.

Ну а то, что нас часто не волнуют те самые «рандомные тетки», данные которых мы анализируем, и то что мы не видим ничего страшного в расскрытии этих данных, это, имхо, очень и очень грустно…

А слово, тест, перед "Леночка" вас не смутило? Мне кажется, что оно там не случайно, ибо остальной текст с ним вообще не связан…
Так что это очень напоминает специальный разговор для тестирования сотрудников(например узнать как они отвечают клиентам по телефону)

Да, я обращал внимание на это слово, но оно может быть и артефактом спич-то-текста, а автор при рассказе никак не отразил этот момент. Но это даже не главное — у меня нет намерения обвинять в чем-то автора. Появись такой слайд на том же КДД — ахнуло бы ползала, а у нас среагировали единицы, ни один из задающих вопросы не попробовал уточнить этот момент (я пытался, но организатор с микрофоном так и не добрался до нашего ряда). Основная проблема ведь не в этом конкретном слайде, а в том что лекгомысленное отношение к данным для нашего сообщества является практически нормой и именно с этим надо бороться.
Paranoia mode/>
На самом деле это всё (статья) партизанский маркетинг или продакт плейсмент для услуг клиники, врача или MIL, а возмущение раскрытием данных только предлог
<paranoia mode

А если серьёзно, ожидал увидеть статью подлинее и содержательней. Хотя тема и актуальная.
Долго думал над заголовком, итог получился немного «читерский», но как иначе привлечь внимание к теме?.. Статью подлиннее и содержательнее постараюсь организовать.

Спасибо, что обратили внимание на такой очевидный косяк.


Сразу отмечу, что данные здесь были полу-обезличенными — в датасете ФИО клиентов заменялись на рандомные. С адресами клиник никто не парился, никакой конфиденциальной информации в адресе клиники нет.


Впрочем, заблюрить все фамилии и адрес клиники — самое правильное решение, которое не вызвало бы неприятного осадка у части (пусть и небольшой) аудитории. В аналогичном кейсе на одном из следующих слайдов абсолютно вся личная информация клиента (номер телефона, ФИО, даже адрес магазина) замазаны. Чтобы избежать разрастания дискуссии из-за банальной небрежности, мы добавили серых прямоугольников на слайд, скриншот которого есть в этой статье, и перезалили слайды в гугл-диск с материалами :)


На будущее было бы клево сначала выяснять у автора вопросы про обезличенность данных, а уже потом оформлять справедливое недовольство в статью.

Спасибо большое за разъяснения! Снова подчеркну — не имел цели обвинить в чем-то автора. Именно тот факт, что странность заметила лишь малая часть аудитории расстраивает куда как больше чем сам слайд…

Еще, на мой взгляд, можно было бы улучшить название — позитивные формулировки всегда воспринимаются лучше. Согласитесь, «Как ускорить разработку модели в 10 раз» и «Как уволить 90% датасаентистов с помощью AutoML» воспринимается очень по разному, хоть и означает примерно одно и тоже…

Да, разумное замечание.
Учту :)

У Анастасии отличное название доклада — и провокационное, и по существу. А главное, в нем сразу видно, где деньги.

Уволить 90% кого-то и неистово сэкономить — это суперпозитивная формулировка.
Вся автоматизация, от ткацких станков до самоездящих повозок, делается именно ради этого. А если после автоматизации ещё и качество сервиса растёт — то это и деньги в квадрате, и шаг вперёд для человечества.
«Вперед» или нет сильно зависит от того, куда Вы хотите придти. Конечно бороться с технологической безработицей попытками остановить развитие технологий безсмысленно, но и забывать про то, что за безликими цифрами стоят живые люди тоже нельзя. Радоваться тому что люди теряют работу достатоно странно, на мой взгляд. Хотите сделать акцент на деньги — назовите «Как сэкономить до 90% затрат на дата сайнс». А провокаций жизнь нам и так подкидывает не мало.

В развитых сообществах проблема технологической безработицы уже стоит в актуальной повестке дня и пока оптимальным вариантом решения считается поддержка трансфера лишающихся работы людей в новые области. А здесь ДС может очень много что предложить: и прямой трансфер через создание новых типов рабочих мест, например «МЛ-разметчик», и создание вторичных рабочих мест в около-ДС индустрии, и стимуляци развития трудоустройства по пир-ту-пир модели и много что еще. Так что, надеюсь, увидим мы и работы о том как ДС помог найти работу паре сотен тысяч человек — вот это будет заголовок.
Общий раздрай в стране позволяет так некорректно и вызывающе вести себя муниципальным органам.
UFO just landed and posted this here
Да, незакрытые лица и номера на Яндексе это тоже особеность Российского дата сайнс (технически это реализовать, кстати, не то чтобы большая проблема). И дело тут в первую очередь в головах тех, кто с персональными данными работает, т.е. дата сайентистов.
Не думаю что что-либо подобное могло произойти в странах с более зрелым Data Science на западе и, скорее всего, на востоке

Вы правы, произошедшее крайне неэтично, но проблема на самом деле в другой плоскости. В конце-концов посетители конференции по тематике Data Science — едва ли не последние люди, кого могут заинтересовать личные данные пациента. А вот корень этой проблемы в отсутствии дисциплины хранения приватных данных на местах, в предприятиях, которые их собирают, обрабатывают и используют. Вообще не должна была произойти ситуация, когда инженер-разработчик мог вот так просто взять лог с личными данными с продакшена и понести его на конференцию. Даже если он сам об этом не подумал (а что с нас, с ботаников, возьмёшь? ;-), то на предприятии должен быть специалист по защите данных, который этот вопрос контролирует и регулирует.
Все правильно, для получения результата нужны все компоненты: и методы, и технологии, и процессы, и культура. Вообще вопрос о том как организовать работу дата сайентиста так, чтобы при этом он не мог нарушить приватность пока далек от хорошего решения, но международное сообщество активно работает в этом направлении (собственно о части полученных в это области результатов я рассказывал на мэйджоре и в постах-обзорах КДД).
«Этично, не этично...»
За халатность нужно спрашивать, желательно с ощутимыми последствиями.
Сложно что-то возразить… Но я идеалист и верю в превосходство просветительских мер над репресивными. Гораздо лучше постараться неприятность предотвратить чем потом искать (чаще читай назначать) и наказывать виновных.
Да и похер, нашли проблему. Можно подумать, там домашних адресов и паспортных данных пачку выложили. Еще нам не хватало этих кликуш «этичности» в науке.
Sign up to leave a comment.

Articles