11 April

Как вирус Эбола научил нас работать с данными про заражения, а мы забыли все его уроки

Open dataPopular scienceHealth
Меня зовут Роман Нестер, я профессор НИУ ВШЭ. Я занимаюсь данными последние 10 лет. Например, мы с партнёрами сделали стартап Segmento, который использует большие данные в рекламе, и его купил у нас «Сбербанк». Сегодня я развиваю магистратуру по управлению продуктом и маркетингом на основе данных в департаменте коммуникаций НИУ ВШЭ. Меня беспокоит бесчисленное количество статей с цифрами, выводами и решениями, связанными с коронавирусом. Нельзя забывать — мы часто ошибаемся из-за неверных данных. Пример этого — борьба с вирусом Эбола в 2014 году. Смотрю на борьбу с COVID-19, и мне кажется, что мы не выучили ни один из тех уроков.

Я хочу привести ряд цитат из моей любимой книги Factfulness шведского статистика и врача, доктора наук Ганса Рослинга. По ней мы в ВШЭ сделали, по-моему, клёвый курс по решениям, основанным на данных. И вот сейчас меня осенило — ведь то, что происходит сейчас, очень похоже на то, уже происходило 6 лет назад. Рослинг был непосредственным участником тех событий. Ощущение усилилось, когда я прочитал про московскую "Тактику устрашения", когда публикуются пугающие цифры и заголовки про заражённых.

Минутка заботы от НЛО


В мире официально объявлена пандемия COVID-19 — потенциально тяжёлой острой респираторной инфекции, вызываемой коронавирусом SARS-CoV-2 (2019-nCoV). На Хабре много информации по этой теме — всегда помните о том, что она может быть как достоверной/полезной, так и наоборот.

Мы призываем вас критично относиться к любой публикуемой информации


Официальные источники

Если вы проживаете не в России, обратитесь к аналогичным сайтам вашей страны.

Мойте руки, берегите близких, по возможности оставайтесь дома и работайте удалённо.

Читать публикации про: коронавирус | удалённую работу

image

Билл Гейтс называл книгу Рослинга одной из своих любимых

Эбола


В 2014 в Либерии вспыхнула эпидемия Эбола. Это заразная болезнь с высокой смертностью, убивающая каждого второго. С января по март было упущено время — никто не отнёсся к цифрам со всей серьёзностью. В марте стало ясно, что эпидемию не остановить. В Африку вылетели международные профессионалы. Все тогда только и говорили про “экспоненту” (теперь, благодаря covid-19, про неё узнал любой обыватель) — именно так выглядели графики заражения и, главное, смертности.

В стране ввели карантин, закрыли учреждения и ввели беспрецедентные для Западной Африки ограничения и меры по улучшению гигиены. Несмотря ни на что, графики по количеству заражённых росли. Их публиковали в регулярных релизах и за ними стал следить весь мир. Кажется, принятые меры не работали.

Рослинг решил разобраться в чём дело. Борьбой с Эболой занимались американское федеральное агентство CDC (Centers for Disease Control and Prevention) и WHO (ВОЗ). Именно они публиковали регулярные данные о “заражённых”, называя их при этом “подозрение на заболевание” (suspected cases).

На графики умерших от вируса Эбола, например, попадали те пациенты, кого привезли с подозрением на Эболу, но затем они умерли от других причин. Чем больше увеличивался страх от болезни, тем больше людей поступали в больницы “с подозрением” (suspected) и учитывались в главной статистике “заражённых” (total cases).
“Чем дальше, тем больше эти растущие кривые “заболевших” пугали нас и весь мир, и тем меньше мы понимали реальное количество подтвердившихся случаев. Если ты не можешь оценить прогресс, то не можешь и понять, работают ли твои меры по сдерживанию." — вспоминал Рослинг.
image

Данные


Доктор взял в министерстве Здравоохранения Либерии данные по подтвержденным случаям. Оказалось, у пациентов, поступавших “с подозрением” брали кровь и рассылали в 4 лаборатории. Результаты их анализа приходили в таблицах Excel. Но дальше не было никого ответственного за сведение этих таблиц! Всех интересовало лишь то, как много новых “подозреваемых” продолжает поступать в больницы. Рослинг взял эти данные, очистил их от дублей и свёл воедино.
“Когда проблема кажется срочной, не нужно кричать “Волки!”. Нужно организовать данные. Ко всеобщему удивлению, мы увидели, что количество подтвердившихся после подозрения случаев достигло пика 2 недели назад и теперь падало. Но в те же самые дни количество госпитализаций с подозрением на Эболу продолжало драматически увеличиваться!”
Люди в Либерии радикально изменили поведение. Они перестали здороваться за руку, избегали контакта, закрылись магазины и общественные места. И оказалось, что в итоге реальные заражения и смерти от Эболы пошли на спад! Но при этом испуганные люди продолжали при первых опасениях бежать в больницы. И попадали в статистику всё новых “подозреваемых”!

«Стратегия сработала, но об этом вообще никто не знал до моего анализа данных. Это придало нам сил и очень вдохновило нас!”, — вспоминает Рослинг.

Страх


Он отправил свой график в ВОЗ и CDC. К удивлению Рослинга, CDC отказались публиковать его в очередном релизе! Бюро настояло на публикации графика по прежней ошибочной методике с пугающим растущим количеством “госпитализированных с подозрением на Эбола”. И тут Рослинг понял — всё дело в том, что CDC считали, что они должны поддерживать ощущение срочной необходимости среди тех, кто отвечал за выделение ресурсов.
“Я понимаю, что ими двигали благие намерения. Но это значит, что деньги и другие ресурсы направлялись не туда! Ещё серьезнее то, что это влияло на доверие людей к эпидемиологическим данным. Компания, которая решает проблему не должна решать, какие данные ей публиковать, а какие — нет. Прыгуну в длину не разрешено измерять длину своего прыжка — это делают судьи. Люди “на земле” всегда будут хотеть больше средств, больше ресурсов (ремарка — ежегодный бюджет CDC — больше 10 миллиардов долларов). Но кто-то должен перепроверять их!” — Рослинг
image

Данные помогли понять, насколько опасен вирус Эбола. Именно благодаря экспоненциальным графикам, которые он получил, Рослинг бросил все дела и приехал в Либерию. Однако, как только появились данные о том, что вирус удается победить, их публиковать попросту не стали!

Такое избирательное использование и публикация данных лишает запрос на точность их сбора и обработки всякого смысла! К отчётам CDC по соседней Сьерра-Леоне затем предъявила претензии и сама ВОЗ, увидев безумные “пики” в статистике из-за сочетания разнородных баз. CDC изменили методику учёта. Однако, по Либерии до сих пор все заболевшие и подозреваемые на болезнь посчитаны “в кучу” — колоссальная ошибка по прежнему на виду.

image
Отчёт CDC по Либерии — он по прежнему считает всех вместе — и подтвержденных заболевших, и тех, кто с подозрением.
Необходимо защитить доверие к данным и к тем, кто их публикует. Данные должны рассказывать правду, а не призывать к действию, неважно насколько благородны намерения. Инстинкт “Мы должны срочно что-то сделать! Анализ — потом, действуйте сейчас!” — это один из худших инстинктов”.

Урок, который не усвоили


“Нам нужно создать страх” — это слова бывшего вице-президента США Эла Гора. Он сказал их Рослингу, когда попросил того проиллюстрировать своими графиками опасность выбросов СО2 для своего очередного семинара. При этом, Гор отказался от предложенных Рослингом альтернативных графиков, которые показывали положительные прогнозы и улучшения. Шведский профессор настаивал на более объективной картине, но только преувеличение опасности могло дать Элу Гору ожидаемый эффект. Рослинг пошёл на принцип и отказался от помощи одному из сильнейших мира сего.

К сожалению, мы никогда не узнаем, что сказал бы Рослинг, глядя на безумие в медиа сегодня — когда каждый второй журналист раскручивает панику все сильнее, привлекая на свою сторону новые непроверенные данные и рисуя новые пугающие графики. Несмотря на все оговорки учёных и институтов о том, что мы можем очень сильно ошибаться сейчас, когда смотрим на эти цифры! И несмотря на их напоминания, что многие данные ещё не очищены и сбивают нас с толку — это не останавливает никого. Паника продолжает закручивать мир и данные только подпитывают её.

Опасность в том, что многомиллионная аудитория изучает графики на основе экстраполяций из неточных данных и у них складывается иллюзия осведомленности. Люди не изучают природу данных, не проверяют их источников. Графики и выводы путешествуют из публикации в публикацию, уже без исходных оговорок, списков допущений и альтернативных сценариев. Пресса избирательно сохраняет только яркие провокационные картинки и выводы, привлекающие внимание, убирая все лишнее и двусмысленное.

Это не значит, что мы должны игнорировать гибель людей и пренебрегать опасностью. Но нам нужно быть аккуратнее и объективнее в том, как именно мы действуем. И точно — не позволять данным вызывать панику.

Ханс Рослинг умер в 2017 году от рака. От него осталась великолепная книга Factfulness, горячим поклонником которой я стал. Мы испольузем её теперь в нашей магистратуре как часть нашего курса. Я хочу поделиться главными выводами, которые мы обычно закрепляем в финале курса:

  • Вдохните. Когда ваш инстинкт срочно действовать включается, ваша способность к анализу исчезает. Просите больше данных, проверяйте их.
  • Избегайте релевантных, но неточных данных.
  • Опасайтесь “пророков” и не полагайтесь на однозначные сценарии развития событий. Не оставляйте себе для анализа только лучший или только самый худший вариант
  • Опасайтесь радикальных шагов — оцените возможный вред. Менее драматичные действия чаще оказываются более эффективными.

Источники:

Factfulness: Ten Reasons We’re Wrong About the World--and Why Things Are Better Than You Think, ISBN-10: 1250107814

CDC[3]. «Ebola Outbreak in West Africa—Reported Cases Graphs.» Centers for Disease Control and Prevention, 2014. gapm.io/xcdceb17.

WHO[3]. WHO Ebola Response Team. «Ebola Virus Disease in West Africa—The First 9 Months of the Epidemic and Forward Projections.» New England Journal of Medicine 371 (October 6, 2014): 1481–95. gapm.io/xeboresp.
Tags:covid-19коронавирусанализ данныхнаучпопвирусэболапандемиягослингfactfulness
Hubs: Open data Popular science Health
+150
41k 95
Comments 332
Popular right now
Data Science Specialist
from 75,000 to 150,000 ₽JuicyScoreМоскваRemote job
Data Science developer / ML разработчик
from 180,000 to 200,000 ₽QuadcodeСанкт-Петербург
Главный аналитик данных (Senior data analyst)
from 160,000 ₽СберЛогистикаМосква
Программист/архитектор баз данных MySQL
from 60,000 to 60,000 ₽iFreedomLabМоскваRemote job
Администратор баз данных PostgreSQL
from 200,000 to 250,000 ₽ОТП БанкМосква