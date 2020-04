Alors que les États-Unis arrivent en tête du classement des cas de COVID-19 et du taux de croissance, le thème du regret est omniprésent dans les médias. Le temps perdu qui aurait pu être consacré à l’adoption de mesures de distanciation plus strictes pèse sur l’esprit de nombreux dirigeants et citoyens. En tant que chercheur en visualisation de l’incertitude, je crains une sorte de regret différent de notre réponse à COVID-19.

De nombreuses visualisations, y compris des variations du graphique Aplatir la courbe largement distribué, représentent des estimations produites par des modèles. Ces modèles simulent le nombre de personnes qui pourraient être infectées, nécessiter une hospitalisation ou mourir dans des conditions différentes. Flatten the Curve adapte une visualisation présentée pour la première fois par le CDC en 2007 pour comparer ces estimations sous différents niveaux et durées de distanciation sociale. L’auteur a ajouté une ligne pointillée pour représenter son estimation du nombre de lits d’hôpitaux disponibles dans le pays.

Il est facile de percevoir les prédictions de cas et de décès à partir de simulations comme des représentations complètes de ce à quoi nous pouvons nous attendre sur la base de ce que nous savons. D’une part, ces modèles intègrent de multiples flux de données disponibles: sur les cas de COVID-19, les décès et les taux d’hospitalisation; sur la rapidité avec laquelle le COVID-19 s’est propagé dans différentes conditions ailleurs dans le monde; et comment les virus apparentés se sont propagés dans le passé, pour n’en nommer que quelques-uns.

Les résultats des modèles sont puissants, car ils permettent de calculer les risques. Par exemple, dans quelle mesure est-il plus probable que notre taux de mortalité atteigne 10% des cas, comme en Italie, dans le cadre de mesures de distanciation? Quelle est la probabilité que le virus atteigne un pic dans deux à trois semaines? En quantifiant les inconnues, les estimations des risques montrent clairement que ce qui se passera n’est pas complètement certain, mais peut néanmoins nous permettre de prendre des décisions et de peser les compromis.

Ce qui m’inquiète en tant qu’expert en raisonnement sous incertitude est un type d’incertitude plus difficile: l’incertitude qui découle des nombreuses inconnues sous-jacentes aux données et aux modèles COVID-19. Nous ne pouvons pas facilement quantifier cette incertitude, et elle est facile à ignorer, car elle n’est pas transmise uniquement par les estimations du modèle.

Une forme d’incertitude non quantifiable découle de notre capacité limitée à estimer la précision des données entrées dans ces modèles. Les données disponibles sur le nombre de cas COVID-19 sont susceptibles d’être peu fiables en raison de grandes différences dans l’échelle des tests dans différents endroits, combinées à des incohérences dans la façon dont les tests sont appliqués dans un seul emplacement. Cela conduit à des comparaisons de numéros de cas de pommes avec des oranges. Un plus grand nombre de cas au même endroit, ou même un taux plus élevé de cas par habitant, n’équivaut pas nécessairement à un risque plus élevé. Plus probablement, cela signifie que les prestataires de santé testent plus largement à cet endroit. Tant que nous n’aurons pas mis en œuvre des tests non sélectifs plus complets, nous ne pourrons pas quantifier exactement le risque de biais de ces données.

Les données sur les décès dus à COVID-19 sont probablement plus fiables, mais peuvent encore être loin d’être parfaites. Par exemple, il peut être difficile de déterminer si COVID-19 ou une autre affection préexistante a causé la mort chez les personnes âgées. Les décideurs communautaires peuvent également être incités à sous-déclarer les décès pour éviter de semer la panique ou de paralyser l’économie locale.

Une deuxième forme d’incertitude non quantifiable vient du fait que les modèles sont souvent des simplifications grossières des situations du monde réel. De nombreux modèles utilisés pour prévoir notre avenir dans le cadre de COVID-19 émettent de fortes hypothèses qui semblent contredites par ce que nous attendons en réalité. Les modèles varient dans les hypothèses qu’ils font sur le mécanisme de transmission de la maladie. Certaines approches se concentrent sur l’ajustement des courbes aux données disponibles plutôt que de supposer des mécanismes qui tiennent compte des réalités comme les périodes d’incubation et l’immunité après l’infection.

D’autres expliquent cette dynamique, mais émettent de fortes hypothèses sur la prévisibilité du comportement humain face à une crise. Parfois appelée ambiguïté, l’incertitude non numérique comme l’inexactitude non quantifiable d’un modèle en tant que substitut à la réalité signifie que nos prédictions pourraient être fausses, de peu ou de beaucoup selon le défaut des hypothèses du modèle. “Tous les modèles sont faux, mais certains sont utiles”, a déclaré George Box, un statisticien, nous rappelant la tension entre la compréhension des modèles comme outils de réflexion et l’attente que les modèles soient des oracles. Malheureusement, une critique attentive des hypothèses du modèle, comme d’autres présentations directes de l’incertitude, en fait rarement partie dans les articles ou visualisations destinés au public utilisés pour présenter les résultats.

Il est particulièrement facile d’ignorer la force des hypothèses émises par les modèles car leurs prédictions peuvent sembler complètes. Plutôt que de produire un seul nombre comme un décompte, un modèle produit généralement un ensemble de résultats prévus. Aplatir la courbe, par exemple, montre deux zones représentant le nombre de cas au fil du temps: si nous adoptons des mesures de protection, et si nous ne le faisons pas. Un nombre prévu d’infections est indiqué pour chaque jour après le premier cas confirmé.

Même lorsque l’incertitude quantifiable associée aux prédictions du modèle n’est pas indiquée – dans ce cas, nous ne voyons pas d’autres valeurs que le nombre de cas prédit par jour pourrait prendre sous les hypothèses du modèle – des visualisations comme Aplatir la courbe peuvent impliquer l’exhaustivité à travers la série de prédictions qu’ils produisent. Pour beaucoup, voir une représentation graphique des distributions des possibilités dans le temps ou dans l’espace peut sembler être la quintessence de la prudence scientifique. Derrière les visuels apparemment précis, cependant, il y a un certain nombre d’approximations.

La présence d’incertitude fait-elle des mesures extrêmes de distanciation sociale adoptées dans de nombreux États une réaction excessive? Pas nécessairement. En l’absence de bonnes estimations du risque, il est rationnel de se prémunir contre les pires résultats. C’est le mieux que nous puissions faire, jusqu’à ce que nous obtenions de meilleures données.

Ce qui est dangereux, c’est que si nous ne reconnaissons pas la différence entre les prédictions du modèle faites maintenant sur la base d’informations limitées et d’hypothèses solides, et des données plus fiables qui émergeront au fil du temps à mesure que le virus se reproduira. Si les premières prédictions du modèle se révèlent surestimer les décès dus au COVID-19 ou les risques pour notre système de santé, ou les sous-estimer de manière significative, beaucoup peuvent blâmer les scientifiques d’avoir tort. Ils peuvent se fier moins aux estimations basées sur les données à l’avenir.

Une présentation claire de l’incertitude peut rendre les estimations du modèle moins rassurantes, mais peut empêcher les gens de blâmer le prévisionniste ou l’entreprise scientifique elle-même lorsque, comme nous devrions nous y attendre, le modèle est erroné. Échanger la confiance du public dans la science à l’avenir ne vaut pas la peine d’être plus assuré à court terme, peu importe combien nous cherchons à éliminer l’incertitude.