Les chercheurs et les universitaires qui recherchent des jeux de données en ligne auront désormais plus de facilité à le faire, car la recherche de jeux de données de Google est désormais sortie de la version bêta et comprend de nouveaux outils pour mieux filtrer les recherches avec un accès à près de 25 millions de jeux de données.

Dataset Search a été lancé pour la première fois en 2018 dans le cadre de l’objectif de l’entreprise de mettre un terme à la fragmentation des données en libre accès.

Bien que de nombreuses universités, gouvernements et laboratoires publient leurs données en ligne, il est souvent difficile de les trouver en utilisant les moteurs de recherche traditionnels. Cependant, en ajoutant des balises de métadonnées open source à leurs pages Web, ces groupes peuvent voir leurs données indexées par la recherche de jeux de données de Google.

Bien que le géant de la recherche ne partage pas de chiffres d’utilisation spécifiques pour Dataset Search, la société affirme que «des centaines de milliers d’utilisateurs» l’ont essayé depuis son lancement et que l’outil a reçu un soutien positif de la communauté scientifique.

Recherche de jeux de données

The Verge s’est entretenu avec un chercheur de Google AI qui a aidé à créer l’outil nommé Natasha Noy qui a déclaré que «la plupart [data] les référentiels ont été très réactifs »et que Dataset Search a même encouragé les institutions scientifiques plus anciennes à prendre« la publication des métadonnées plus au sérieux ».

Maintenant que l’outil est sorti de la version bêta, Google lui a ajouté de nouvelles fonctionnalités, notamment la possibilité de filtrer les données par type (tableaux, images, texte, etc.), qu’il soit libre d’utiliser et également la zone géographique qu’il couvre. La recherche de jeux de données est également désormais disponible sur mobile et elle a développé des descriptions de jeux de données.

Selon Google, le moteur de recherche de l’outil couvre près de 25 millions de jeux de données, bien que ce ne soit qu’une «fraction des jeux de données sur le Web». Les plus grands sujets indexés par Dataset Search incluent les géosciences, la biologie et l’agriculture avec l’éducation, la météo, le cancer, le crime, le football et les chiens étant les requêtes les plus courantes.

La mise à disposition des données pour les utilisateurs est ce que Google fait de mieux et la société prévoit de continuer à ajouter davantage de jeux de données à la recherche de jeux de données.

Via The Verge