19 February

Анализ данных по коронавирусу SARS-CoV-2 (2019-nCov)

Data MiningOpen dataData visualizationPopular scienceHealth

В последнее время вижу много выпусков новостей о новом вирусе, но так ли всё плохо, прошёл ли пик эпидемии или всё ещё впереди. По большей части из новостных выпусков сложно сделать хоть какие-то выводы. В итоге решил разобраться сам, и вот, что из этого получилось.


image


Для того, чтобы разобраться в ситуации мне необходимо было раздобыть данных для анализа, найти их удалось на сайте Всемирной Организации Здравоохранения (ВОЗ). Данные публикуются в виде pdf отчётов за каждый день начиная с 21 января 2020 года. Универсальный парсер написать не удалось, так как все отчёты разные, пришлось копировать данные из них вручную. В первую очередь меня интересовало количество инфицированных и умерших человек, получив это я рассчитал число инфицированных и умерших за день:



Отобразим на графике количество умерших за каждый день:



На графике видны аномальные данные за 13 и 14 февраля, уточнив это в отчётах за указанные периоды я заметил опечатки, так за 14 и 15 февраля указано, что количество умерших в эти дни равно по 121 человеку, что не соответствует тому, что было рассчитано ранее. В силу этого (хотя 13 февраля и совпадает с тем, что напечатано в отчёте), я за 13 и 14 февраля взял их среднее значение. По уточнённой информации из комента KonkovVladimir из 13 февраля я вычел 108, а к 14 февраля 108 добавил, пруфы здесь (заметка 5):



Далее отобразим на графике количество инфицированных человек за каждый день:



На этот раз аномальное значение получилось 17 февраля, проверив данные по отчётам за это число, я узнал, что до 17 февраля инфицированные люди и люди с симптомами вируса (т.е. случаи не подтверждённые лабораторно) велись отдельно, а после этой даты их объединили, из-за этого на графике такой скачок. Чтобы это исправить я за 17 февраля взял среднее между 16 и 18 февраля:



Теперь графики больше похожи на правду, для наглядности я наложил графики друг на друга:



Из этих графиков можно сделать вывод, что пик и по количеству инфицированных и по количеству умерших прошёл, и хотя общее количество зараженных велико, всё же прослеживается позитивный прогноз. Приведенные графики были получены по данным из Китая, остальной мир я не стал брать, т.к. для статистики там мало данных. Выводы, которые я получил являются лишь мнением автора и ни на что не претендуют.


Обновил графики на 8-03-2020.


Исходный код.


Написал второй пост по коронавирусу — "Анализ данных по коронавирусу часть 2, попытка сравнить с тем, что было в Китае", прочитать можно здесь.

Tags:pythondata miningздоровьездоровье гикавирусыкоронавирус
Hubs: Data Mining Open data Data visualization Popular science Health
+9
17.4k 25
Comments 105
Top of the last 24 hours