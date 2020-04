Ce graphique présente les connexions qui relient des dizaines d’études de recherche sur le coronavirus et les sujets connexes. (Covidgraph.org)

Un mois après le début du COVID-19 Open Research Dataset, ou CORD-19, la base de données des documents de recherche liés aux coronavirus a doublé de taille – et a donné naissance à plus d’une douzaine d’outils logiciels pour canaliser les centaines d’études qui sont publiés chaque jour sur la pandémie.

Dans un résumé publié sur le serveur de préimpression ArXiv cette semaine, des chercheurs du Allen Institute for Artificial Intelligence de Seattle, de Microsoft Research et d’autres partenaires du projet ont déclaré que la collection de CORD-19 est passée d’environ 28000 articles à plus de 52000. Chaque jour, plusieurs centaines d’autres articles sont publiés, dans des revues à comité de lecture et sur des serveurs de préimpression tels que BioRxiv et MedRxiv.

CORD-19 vise à leur donner un sens à tous, en utilisant le moteur de recherche académique Semantic Scholar développé par le Allen Institute for AI, également connu sous le nom d’AI2.

“Nous nous engageons à fournir des mises à jour régulières de l’ensemble de données jusqu’à ce que la fin de la crise soit prévisible”, déclarent les organisateurs du projet.

Depuis la mi-mars, l’ensemble de données a été consulté plus de 1,5 million de fois et téléchargé plus de 75 000 fois.

Mais ce n’est pas seulement une question de quantité: CORD-19 a déclenché le développement de projets dérivés visant à visualiser et à organiser la recherche COVID-19 pour répondre aux questions clés sur la pandémie et comment l’arrêter.

L’un des profils les plus prestigieux est la Text Retrieval Conference-COVID, ou TREC-COVID, lancée la semaine dernière par l’Institut national des normes et de la technologie du Département du commerce et le Bureau de la politique scientifique et technologique de la Maison Blanche.

Parmi les autres organisateurs de TREC-COVID figurent AI2, la National Library of Medicine, l’Oregon Health and Science University et l’Université du Texas Health Science Center à Houston. Le but du projet est d’évaluer les systèmes sur leur capacité à classer les articles de recherche COVID-19 en fonction de leur pertinence pour les questions d’actualité – par exemple, «Comment le coronavirus réagit-il aux changements météorologiques?»

Cette visualisation CoViz cartographie le réseau des meilleures protéines, gènes et cellules associés au mot «pic» dans l’ensemble de données CORD-19. La protéine de pointe du coronavirus SARS-CoV-2 est une cible clé pour les thérapies et les vaccins conçus pour lutter contre le COVID-19. (Graphique AI2)

“Des experts en IA du monde entier répondent à l’appel à l’action de la Maison Blanche, développant des approches qui aident les scientifiques à obtenir des informations à partir de milliers d’articles de la littérature scientifique COVID-19”, a déclaré Michael Kratsios, directeur de la technologie aux États-Unis, dans un communiqué de presse. «Le programme TREC-COVID étend ces efforts en créant des moteurs de recherche puissants et précis qui extraient des connaissances de cette littérature, adaptés aux besoins des communautés de la santé et de la recherche médicale.»

Un autre partenaire de CORD-19 est la communauté de science des données en ligne Kaggle, qui organise un concours d’exploration de texte pour extraire les réponses aux principales questions de recherche entourant la pandémie. Plus de 550 équipes participent à la compétition, et elles trouvent déjà de nouvelles façons de mélanger l’analyse basée sur la machine avec la conservation basée sur l’homme par des experts médicaux.

Dans le rapport de cette semaine, les organisateurs de CORD-19 disent qu’ils ont rencontré quelques obstacles dans leurs efforts pour construire la base de données. L’une concerne l’accès à la recherche. “Bien que de nombreux éditeurs aient généreusement mis à disposition des articles COVID-19 pendant cette période, il y a encore des goulots d’étranglement à l’accès à l’information”, écrivent-ils.

La sécurisation des droits de publication des documents qui n’étaient pas encore disponibles pour CORD-19 est l’un des principaux éléments de la liste de tâches des organisateurs, l’initiative PubMed Central COVID-19 des National Institutes of Health jouant un rôle de premier plan.

Un autre obstacle est lié au format de document PDF, qui est le principal format de distribution des articles scientifiques. Le PDF est optimisé pour restituer fidèlement les papiers pour la lecture et l’impression, pas pour l’analyse automatisée des documents. Pour cette raison, les études publiées sous forme de fichiers PDF doivent subir un nettoyage important pour que l’IA puisse faire son travail. De plus, il n’existe pas de format standard pour représenter les métadonnées qui accompagnent les articles de recherche.

«Nous encourageons la communauté à se rassembler et à proposer des solutions à ces défis», déclarent les organisateurs de CORD-19.

La bonne nouvelle est qu’une nouvelle génération d’outils de recherche et de visualisation de données a fleuri dans le domaine fertile de la méta-analyse CORD-19. Voici un échantillon:

