Coronavirus : Analyse des données 2019-nCoV (Coronavirus) – Pourquoi les contrôles de qualité et de sens sont-ils si importants en science des données?

16

Comment l'Organisation mondiale de la santé et la base de données 2019-nCoV (Coronavirus) de Kaggle racontent la même histoire avec des chiffres d'impact différents.

Angel Das
Source de l'image: WebMD.com

"JE priez sincèrement pour le bien-être de chacun en Chine. Que Dieu donne suffisamment de pouvoir aux victimes du coronavirus et à leurs familles pour traverser cette période difficile. Veuillez suivre les conseils décrits dans le Site Web de l'OMS pour rester en sécurité et protégé ”

«Les coronavirus (CoV) sont une grande famille de virus qui provoquent des maladies allant du rhume à des maladies plus graves telles que Syndrome respiratoire du Moyen-Orient (MERS-CoV) et Syndrome respiratoire aigu sévère (SRAS-CoV). Un nouveau virus corona (nCoV) est une nouvelle souche qui n'a pas été identifiée auparavant chez l'homme. Les informations sur l'épidémie de virus Corona qui a commencé à Wuhan, en Chine, évoluent rapidement. L'infection respiratoire, étroitement liée au SRAS et au MERS, s'est propagée à travers la Chine et des cas ont été diagnostiqués dans plusieurs autres pays, notamment aux États-Unis, en Australie, au Japon, etc. »

L'Université John Hopkins a créé un tableau de bord en ligne pour surveiller le scénario actuel du virus Corona et les données sont extraites du même lien et mises à disposition au format csv. La majorité des données sont collectées auprès de diverses sources, notamment QUI, États-Unis CDC, ECDC CDC Chine (CCDC), NHC et DXY. DXY est un site Web chinois qui regroupe les rapports de situation du NHC et du CCDC local en temps quasi réel, fournissant des estimations de cas régionales plus récentes que celles dont les organisations de déclaration au niveau national sont capables, et est donc utilisé pour tous les cas de Chine continentale signalés (confirmés, soupçonnés , récupéré, décès). Les cas américains (confirmés, suspectés, récupérés, décès) sont tirés du CDC américain, et tous les autres pays (suspects et confirmés) les données des cas proviennent des services de santé régionaux correspondants. Les données sont présentes au niveau du pays, de la province et de la date, contenant environ 368 enregistrements.

Crédits image: Université John Hopkins

Une terminologie très familière dans l'espace analytique qui implique la construction de résumés, la vérification de la duplication des données, les valeurs manquantes, la distribution des indicateurs de performance clés. Comme nous avons ~ 368 enregistrements, j'ai fait toute la validation des données dans Excel lui-même. Voici ce que j'ai trouvé:

  • ~ 66 enregistrements sur 368 n'ont pas d'informations sur l'État / la province
  • 19 enregistrements capturés dans des pays comme la Chine, la Chine continentale, la Malaisie et le Brésil n'ont aucune information sur les cas confirmés, les décès ou les cas récupérés
  • "Dernière mise à jour" le flux horaire ne suit pas la cohérence du type de données et nécessite un nettoyage, en particulier le flux du 23 janvier 2020
  • Statistiques descriptives – Un écart-type ou une variance plus élevés sont observés car les cas sont principalement confinés à la Chine. Le reste du monde a des événements très minimes
EDA – Données brutes avant traitement des données

À ce jour, le risque reste confiné principalement en Chine, cependant, quelques cas de transmission interhumaine sont observés aux États-Unis et dans d'autres pays.

La Thaïlande, Hong Kong, le Japon, Singapour sont en tête mais ne représentent que 1% des cas. Le nombre total de cas confirmés continue d'augmenter, mais le pourcentage d'augmentation des cas confirmés au fil du temps n'a montré aucune tendance linéaire à ce jour, tandis que le ratio décès / cas confirmés est resté stable.

Le test Z pour la différence de moyenne dans les cas confirmés pour la Chine par rapport au reste du monde produit une valeur de p de 0,0001, ce qui prouve que notre hypothèse nulle est vraie, c'est-à-dire qu'une différence significative est observée entre les cas confirmés en Chine et le reste du monde.

Pour surveiller les mises à jour en temps réel, j'ai créé un tableau de bord basé sur QlikSense avec un connecteur de mise à jour quotidienne, analysant les données à travers différents scénarios.

Données jusqu'au 29 janvier 2020; Impact global du coronavirus dans le monde – en particulier en Chine et en Chine continentale
Données jusqu'au 29 janvier 2020; Taux de croissance et ratio mort / confirmation – Chine vs reste du monde

Le plus grand défi de toute analyse est de valider les chiffres que nous rapportons. Souvent, le processus de collation des données est fastidieux et nécessite beaucoup de nettoyage avant que les données puissent être consommées. Le nettoyage implique des approximations et des hypothèses qui pourraient biaiser nos résultats. Les erreurs de code, les informations non valides à la racine de collecte de données, les problèmes systémiques ou principaux dans le tableau de bord peuvent souvent représenter des chiffres incorrects. Par conséquent, passer par des sources authentiques, des rapports de 10 000 et un peu de recherche sur Google peut garantir une sortie correcte. Pour valider les chiffres de mon tableau de bord, j'ai fait référence au rapport de situation – 9 du site Web de l'OMS. Voici ce que j'ai trouvé:

  1. ~ 25 000 cas confirmés sont signalés dans mon tableau de bord, beaucoup plus que ce qui est signalé par l'OMS, ~ 17 000 (confirmés + soupçonnés + graves + décès)
  2. ~ 20 pays et 45 provinces ont au moins un cas confirmé, conformément à ce qui est rapporté par l'OMS, 16 pays
  3. ~ 2,3% des décès et ~ 1,9% des cas récupérés sont signalés dans le monde jusqu'à ce jour
  4. % D'augmentation des cas confirmés n'affiche aucune tendance linéaire / non linéaire et est resté stable au fil du temps avec des pointes soudaines