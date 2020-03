Une nouvelle étude révèle que les systèmes de reconnaissance vocale des grandes entreprises technologiques ont plus de mal à comprendre les mots prononcés par les Noirs que les mêmes mots prononcés par les Blancs.

Les systèmes de reconnaissance vocale automatisés sont essentiels à la plupart des fonctionnalités des haut-parleurs intelligents et des assistants virtuels.

Ces types de systèmes sont couramment utilisés dans les assistants numériques comme Siri, ainsi que dans des outils comme le sous-titrage et les commandes mains libres. Mais, comme avec tout système d’apprentissage automatique, leur précision n’est aussi bonne que leur ensemble de données.

Les systèmes automatisés de reconnaissance vocale (ASR) développés par des entreprises comme Apple, Google et Facebook ont ​​tendance à avoir des taux d’erreur plus élevés lors de la transcription de la parole des Afro-Américains que des Américains blancs, selon une étude de l’Université de Stanford publiée dans les Actes de la National Academy of Sciences.

Les chercheurs ont réalisé 115 entretiens transcrits par l’homme et les ont comparés à ceux produits par des outils de reconnaissance vocale. De ceux-ci, 73 conversations ont eu lieu avec des haut-parleurs noirs, tandis que 42 ont été avec des haut-parleurs blancs.

L’équipe a constaté que le “taux d’erreur moyen sur les mots” était presque le double (35%) lorsque les systèmes ASR transcrivaient la parole noire, contre 19% lorsqu’il transcrivait des haut-parleurs blancs.

Pour exclure les différences de vocabulaire et de dialecte, les chercheurs ont également fait correspondre le discours selon le sexe et l’âge et ont demandé aux locuteurs de dire les mêmes mots. Même alors, ils ont trouvé des taux d’erreur presque deux fois plus élevés pour les enceintes noires que pour les enceintes blanches.

“Étant donné que les phrases elles-mêmes ont un texte identique, ces résultats suggèrent que les disparités raciales dans les performances ASR sont liées aux différences de prononciation et de prosodie – y compris le rythme, la hauteur, l’accentuation des syllabes, la durée des voyelles et la lénition – entre les locuteurs blancs et noirs”, étude lit.

Les taux d’erreur avaient tendance à être plus élevés pour les hommes afro-américains que pour les femmes, bien qu’il y ait une disparité similaire entre les hommes et les femmes blancs. La précision était la pire pour les locuteurs qui faisaient un usage intensif de l’anglais afro-américain vernaculaire (AAVE).

Bien sûr, les systèmes d’apprentissage automatique ne peuvent pas être biaisés de la même manière que les gens. Mais s’il y a un manque de diversité dans les données sur lesquelles ils sont formés, cela se traduira par leur précision et leurs performances. L’étude conclut que le principal problème semble être un manque de données audio des haut-parleurs noirs lors de la formation des modèles d’apprentissage automatique.

Il convient de noter que les chercheurs ont utilisé une application iOS conçue sur mesure qui exploitait la technologie de reconnaissance vocale gratuite d’Apple, et il n’est pas clair si Siri utilise ce modèle d’apprentissage automatique exact. Les tests ont également été effectués au printemps dernier, de sorte que les modèles peuvent avoir changé depuis lors.

Alors que l’étude portait spécifiquement sur les haut-parleurs noir et blanc, les assistants numériques peuvent également avoir plus de mal à interpréter d’autres accents.

Une histoire de 2018 par le Washington Post a révélé que les assistants numériques comme Alexa ou Google Assistant ont plus de mal à comprendre les gens avec des accents de toutes sortes. Généralement, les conférenciers de la côte ouest – où se trouvent la plupart des géants de la technologie – étaient les mieux compris.

Et en 2019, des chercheurs fédéraux américains ont également trouvé des preuves répandues de biais raciaux dans près de 200 algorithmes de reconnaissance faciale, confirmant le fait que le manque d’ensembles de données variés peut provoquer des problèmes similaires dans tous les types de plates-formes d’apprentissage automatique.