Coronavirus : Quelle sera la gravité de l'éclosion de coronavirus? – Prédire les chiffres de l'épidémie

32

Le point de vue d'un analyste de données – 4 choses clés à savoir

Angel Das

«Tout le monde en Chine et ailleurs qui souffre, que Dieu fortifie les victimes et leurs familles et les guide à travers cette période difficile. Veuillez suivre les conseils indiqués sur le site Web de l'OMS pour rester en sécurité et protégé"

L'épidémie continue de se propager – Au 1er février, l'OMS avait confirmé environ 12 000 cas, et plus de 2 000 seuls ont été confirmés samedi (soit environ 18% du total des cas signalés). Au total, 48 provinces dans 28 pays ont été touchées. Cependant, seulement un peu plus de 2% de ces cas ont été trouvés en dehors de la Chine. Bien que ce nombre puisse sembler faible, Wuhan, la ville au centre de l'épidémie, est une plaque tournante des transports du pays. Les voyages interurbains en augmentation en raison du nouvel an lunaire ont aidé l'épidémie dans une certaine mesure. Entre octobre et novembre de l'année dernière, près de 2 millions de personnes ont fui Wuhan et environ 120 000 personnes ont également fui à l'extérieur du pays. Par conséquent, l'épidémie de coronavirus reste une préoccupation majeure à travers le monde.

Pays touchés – Du rapport au 31 janvier 2020 (Crédit – Développé par l'auteur à l'aide d'Excel 3D Map)

Le rythme et la facilité avec lesquels une épidémie se propage déterminent son ampleur. Le rapport publié par l'Imperial College de Londres suggère qu'une personne souffrant de coronavirus peut affecter 1,5 à 3,5 personnes en bonne santé. Selon le New York Times, si 5 personnes atteintes d'un nouveau coronavirus peuvent toucher 2,6 autres personnes, alors 5 personnes pourraient être malades après 1 cycle, 18 personnes après 2 cycles, 52 personnes après 3 cycles et ainsi de suite.

Comment un coronavirus peut-il se propager de 5 à 368 personnes en 5 cycles (Crédit: The New York Times)

Données contre le débat de l'Organisation mondiale de la santé!

je travaillé à la création d'un tableau de bord de base QlikSense pour surveiller le scénario actuel et suivre l'épidémie. Vous pouvez trouver plus d'informations à ce sujet ci-dessous.

Samedi, l'OMS a confirmé 11 821 cas en Chine. Cependant, les chiffres rassemblés par l'Université Johns Hopkins suggèrent un nombre beaucoup plus élevé. Une probabilité que certains des cas soient FAUX POSITIFS existe, c'est-à-dire que quelqu'un a été incorrectement suspecté d'avoir le virus mais a été éliminé lors du test. La croissance moyenne du nombre de cas signalés en Chine reste aussi élevée que 16,3% (supérieure aux cas du SRAS en 2003).

États / provinces touchés en Chine (Crédit – Développé par l'auteur à l'aide d'Excel 3D Map)

Il est difficile de prédire l'épidémie à l'aide d'un modèle de série chronologique, étant donné que nous n'avons pas suffisamment de points de données. Examinons le taux de croissance des cas confirmés au fil du temps. Trois paramètres clés doivent être pris en compte lors de l'examen d'une variable dépendante du temps.

  • Tendance – Y a-t-il une augmentation linéaire de l'amplitude de la variable dans le temps? par exemple. La croissance dans les cas confirmés augmente-t-elle avec le temps?
  • Niveau – Quelle est la valeur moyenne de la variable sur une période de temps? par exemple. Quelle est la croissance moyenne au cours des 6 derniers jours?
  • Saisonnalité – Observe-t-on un schéma similaire dans les valeurs à des intervalles spécifiques? – Observe-t-on des tendances similaires certains jours, des cas confirmés / des chiffres de croissance plus élevés chaque lundi?
Source de données: Rapport de situation de l'OMS

Hypothèses et perspectives

  • Hypothèse – Les épidémies continueront de croître puisque le volume initial de cas confirmés est faible, nous ne pouvons regarder les chiffres qu'après que les taux de croissance se soient stabilisés. Sinon, les chiffres pourraient être biaisés
  • Absence de saisonnalité dans les chiffres de croissance des cas confirmés. Faisable en raison de moins de points de données; Cependant, les taux de croissance ont commencé à diminuer en raison d'un volume plus important de cas confirmés
  • Une combinaison de valeur de la veille, alpha et taux de croissance précédent peut être utilisé pour prédire le résultat pour les 7 prochains jours; où alpha est la moyenne de la variation des taux de croissance au fil du temps

Prévoir

En utilisant le total des cas confirmés de la veille et appliquer un alpha (-2,9%) du taux de croissance récent, J'ai prédit l'épidémie pour la semaine prochaine. La prévision a été validée à l'aide du rapport de situation 12 et du rapport 13 de l'OMS, et un MAPE de 1% est observé. Un coup d'œil au graphique suggère que j'ai fini par prédire les chiffres.

Prévoir
Prévoir. Source de données – Rapport de situation de l'OMS

L'ARIMA (moyenne mobile intégrée auto-régressive) aurait-elle pu donner de meilleurs résultats?

Une série chronologique est une séquence dans laquelle une métrique est enregistrée sur des intervalles de temps réguliers. Selon la fréquence, une série chronologique peut être annuelle, mensuelle, hebdomadaire ou même quotidienne. Étant donné que le nombre de cas confirmés est une technique variable dépendante du temps comme le lissage exponentiel simple ou double ou un ARIMA peut produire une meilleure prévision. Cependant, je ne l'ai pas essayé en raison de moins de points de données. Tout modèle de série chronologique nécessite suffisamment de points de données pour comprendre l'interaction entre l'ensemble de valeurs actuel et précédent. Cependant, j'ai utilisé le tracé d'autocorrélation partielle (PACF) pour valider si mes hypothèses étaient correctes ou non.

Je vais écrire plus à ce sujet dans mon prochain article, cependant, si vous souhaitez en savoir plus, visitez ce site. En utilisant PACF, j'ai compris ce qui suit:

  • Le PACF peut être imaginé comme la corrélation entre la série et son décalage, après exclusion des contributions des décalages intermédiaires. Le PACF étant supérieur à la valeur significative pour le Lag 1 uniquement, cela suggère qu'il existe une corrélation pure entre le nombre total de cas confirmés aujourd'hui et la veille, et pas d'autres instances (donc je peux utiliser la valeur actuelle pour prédire la suivante)