27 March

Мой дашборд и анализ динамики распространения инфекции COVID-19

Data MiningPopular scienceGeek health
From Sandbox


Хочу поделиться своим дашбордом и анализом динамики распространения инфекции. Дашборд написан на Google Таблицах и Google Apps Script.

Минутка заботы от НЛО


В мире официально объявлена пандемия COVID-19 — потенциально тяжёлой острой респираторной инфекции, вызываемой коронавирусом SARS-CoV-2 (2019-nCoV). На Хабре много информации по этой теме — всегда помните о том, что она может быть как достоверной/полезной, так и наоборот.

Мы призываем вас критично относиться к любой публикуемой информации


Официальные источники

Если вы проживаете не в России, обратитесь к аналогичным сайтам вашей страны.

Мойте руки, берегите близких, по возможности оставайтесь дома и работайте удалённо.

Читать публикации про: коронавирус | удалённую работу

Примечание: Автор не претендует на объективности данных. Есть множество прямых и косвенных факторов, влияющих на достоверность текущей статистики. По окончании Пандемии будет проведены профессиональные исследования и метаанализ, которые позволят объективно оценить Пандемию в цифрах. Данная статья опубликована в целях ознакомления с инструментом для анализа динамики распространения инфекции на основе данных, которые публикует ВОЗ в своих отчетах.

Дашборд доступен по этом адресу. Данные автоматически обновляются на ежедневной основе по мере публикации отчетов ВОЗ. Содержимое не адаптируется под мобильные устройства. Лучше смотреть на большом экране.

Зачем


  • Я занимаюсь инвестициями, слежу за ситуацией на фондовых рынках и в текущей ситуации мне необходимо держать руку на пульсе, чтобы принимать правильные решения. Когда ситуация с новым коронавирусом стала критической, я понял что мне не хватает инструмента для отслеживания динамики распространения COVID-19;
  • Много недостоверной информации. Для примера можно взять анализ Университета Джонса Хопкинса, на который часто ссылаются в средствах массовой информации. На момент создания Дашборда, аналитики университета испытывали сложности с аггрегированием данных, появлялись ошибки. Я сомневался что их анализ достоверно отображает текущую ситуацию;
  • На момент написания статьи появилось много дашбордов и аналитики, но зачастую они отображают сухие цифры, визуализацию на основе карт, но не отображают динамики;
  • Удобно открыть ноутбук с утра и на одном экране узнать что произошло за прошедшие сутки.
  • Это отличная возможность попрактиковаться с Google Таблицами и Google Apps Script


Данные


Изначально я использовал данные из отчетов ВОЗ, но они то допускали ошибки при переносе данных из отчетов в базу, то меняли время, относительно которого считали новые случаи заражения. В итоге я переписал скрипты на использование данных от ECDC. Это те же данные ВОЗ, но со стабильным временем публикации и без ошибок.

На что смотреть




  • Информеры. Они отображают текущую ключевую динамику по миру;
  • Динамику общего количества случаев заражения в мире(TOTAL CASES);
  • Динамику новых случаев заражения по миру(DAILY NEW CASES);
  • Динамику распространения инфекции и летальных исходов по странам;
  • Визуально оценить ситуацию на карте мира;
  • Динамику летальности(CFR);
  • Длительность пикового периода эпидемии по странам;
  • Корреляцию широкого индекса S&P 500 с количеством новых случаев заражения;
  • Узнать насколько критична ситуация в конкретной стране с поправкой на численность населения этой страны.


Летальность(CFR)




В Интернете много споров на счет летальности нового коронавируса, есть статьи на Хабре. Я не хочу вступать в очередную полемику, я просто оперирую данными, которые у нас есть.

Да, определенно есть проблемы со сбором статистики, есть проблемы в массовом тестировании, которые позволили бы более точно судить о летальности. На точность данных также влияет такие вещи как сезонная эпидемия гриппа в странах Европы, высокая смертность в целом в некоторых странах, вроде Индии, которая возможно в совокупности с проблемами инфраструктуры здравоохранения просто размывает статистику по летальности нового коронавируса. Я допускаю что в странах с большим количеством заражений из-за нагрузки на систему здравоохранения просто невозможно своевременно определить причину смерти, либо наоборот приписать ее новому вирусу. Но, определенно точно можно сказать что многие недооценили критичность ситуации.

Люди путают смертность с летальностью. Согласно ВОЗ и CDC летальность сезонного гриппа — 0.1%, коронавируса SARS-CoV-2 — 4.45% на момент написания статьи(26.03.2020). В некоторых странах, таких как Италия, летальность достигает 9% на текущий момент.

Да, летальность у нового коронавируса не такая высокая как у MERS-CoV и Ebola(34% и 50%), но контагиозность, вирулентность, скорость и масштабы распространения у нового коронавируса не идут ни в какое сравнение — они намного выше.

Пиковый период


Для работы мне необходимо было знать сколько длится пиковый период эпидемии в конкретной стране. Если принять в расчет, что большинство стран примут более-менее соразмерные меры тотального карантина, то опираясь на опыт других стран, можно будет судить когда эпидемия пойдет на спад в конкретной стране.

Я не нашел какой-либо методологии определения пикового периода, поэтому мне пришлось импровизировать. Опираясь на динамику по количеству новых заражений, я решил определить такое значение новых заражений, на основе которого можно было бы судить, прошел ли пик эпидемии или страна находится в пиковом периоде. Среднее значение и медиана не совсем подходили, поэтому я решил использовать Квартиль. Я убрал дни с нулевым значением из выборки данных по новым заражениями, после такой нормализации я использовал функцию определения значения Третьего Квартиля. Далее формула считает количество дней, которые превышают значение Третьего Квартиля — это и есть длительность пикового периода.

Если применить такой расчет для всех стран, то его вполне можно использовать для сравнения пикового периода по странам.

Пиковый период будет более достоверно отображать ситуацию к концу эпидемии. Можно взглянуть на таймлайны Китая и Южной Кореи, где пиковый пик эпидемии прошел. Несмотря на то, что новые заражения и в Китае и в Южной Корее все еще присутствуют, расчет пикового периода прекрасно отображает эффективность пресловутых методов тотального карантина и методов сглаживания кривой, принятые в Южной Корее. Надо учитывать что существует риск вероятности второй волны эпидемии в Южной Азии. По причине поспешного снятия карантина, либо из-за импортирования вируса из соседних стран, где эпидемия только начинается. Поэтому, пиковый период может увеличиваться.

Сводная таблица по странам


Здесь отображается вся ключевая информация по странам, а также есть таймлайны, по которым можно визуально оценить кривую эпидемии.



Данные на карте мира


Визуализация на карте позволяет оценить текущие очаги распространения инфекции.



Что планирую добавить


  • Отдельные таблицы по количеству заражений с поправкой на численность населения;
  • Визуализацию динамики на картах мира с поправкой на численность населения;
  • Визуально выделить пиковые периоды, если эпидемия в конкретной стране на данный момент находится в пиковом периоде.


Обратная связь


Буду рад услышать ваши пожелания и рекомендации, чтобы сделать Дашборд еще информативнее.
Tags:коронавирусcovid-19data miningdata scienceвизуализация данных
Hubs: Data Mining Popular science Geek health
+44
26.7k 74
Comments 70
Ads