De nouvelles recherches d’Apple et de l’Université Carnegie Mellon se penchent sur la façon dont les appareils intelligents pourraient en savoir plus sur leur environnement pour mieux comprendre les demandes en sachant quand et où ils sont parlés.



Les futurs HomePods pourraient en savoir plus sur leur environnement en écoutant et en demandant aux utilisateurs

Des universitaires d’Apple et de l’Institut d’interaction homme-machine de l’Université Carnegie Mellon ont publié un document de recherche décrivant comment des appareils tels que Siri et HomePod pourraient être améliorés en les faisant écouter leur environnement. Alors que de nombreux appareils Apple écoutent, ils attendent explicitement d’entendre la phase “Hey, Siri”, et tout le reste est ignoré.

C’est la même chose avec Alexa, ou du moins c’est en théorie, mais ces chercheurs préconisent que les appareils intelligents écoutent activement afin de déterminer les détails de leur environnement et ce que les gens y font.

“Écoutez l’apprenant”, disent-ils dans leur journal, “[is] une technique de reconnaissance d’activité qui apprend progressivement les événements spécifiques à un environnement déployé tout en minimisant la charge des utilisateurs. “

Actuellement, les HomePods ajustent automatiquement leur sortie audio en fonction de l’environnement et de l’espace dans lesquels ils se trouvent. Et Apple a déposé des brevets qui permettraient aux futurs HomePods d’utiliser la position des personnes dans une pièce pour leur diriger l’audio.

L’idée derrière la recherche de cet article est que des capteurs similaires pourraient écouter les sons et détecter d’où ils viennent. Il pourrait ensuite les regrouper pour, par exemple, reconnaître dans quelle direction les bips d’un micro-ondes arrivent. Comprendre le contexte de l’endroit où quelqu’un se tient et quels bruits sont entendus dans quelles directions, pourrait aider Siri à mieux comprendre les demandes ou à fournir des informations.

“Par exemple, le système peut poser une question de confirmation:” était-ce une sonnette? “, Dans laquelle l’utilisateur répond par un” oui “”, poursuit-il. “Une fois qu’une étiquette est établie, le système peut proposer des notifications push et d’autres actions chaque fois que l’événement se reproduit. Cette interaction relie les domaines physique et numérique, permettant des expériences qui pourraient être précieuses pour les utilisateurs qui sont, par exemple, malentendants.”

Bien que le document mentionne à plusieurs reprises et exclusivement les HomePods, il s’intéresse vraiment à tout appareil doté de microphones. Cela suggère que puisque nous avons tous un nombre toujours croissant d’appareils capables d’écouter, nous avons déjà des outils pour améliorer le contrôle vocal.

Dans une vidéo accompagnant le document, les chercheurs démontrent comment l’écoute comme celle-ci peut améliorer la précision, et comment elle est plus efficace que les tentatives précédentes de formation d’appareils.

Le document, «Découverte automatique de classe et interactions à un coup pour la reconnaissance de l’activité acoustique», propose qu’un appareil puisse écouter en continu, bien que «aucun audio brut ne soit enregistré sur l’appareil ou sur le cloud». Il continue de le faire, créant efficacement des étiquettes ou des étiquettes déclenchées par certains sons, jusqu’à ce qu’il soit suffisamment entendu.

“Finalement, le système devient confiant qu’un cluster de données émergentes est un son unique, à quel point, il invite [the user] pour une étiquette la prochaine fois qu’elle se produit “, explique le journal.” Le système demande: “quel était ce son?”, et [the user] répond: “c’est mon robinet.” Au fil du temps, le système peut continuer à demander intelligemment à Lisa des étiquettes, créant ainsi lentement une bibliothèque d’événements reconnus. “

Ainsi qu’un général “quel son était-ce?” genre de question, il pourrait être en mesure de deviner et essayez donc de poser une question plus spécifique. “Le système pourrait demander:” était-ce un mélangeur? “”, Explique le journal. “Dans lequel [case the user] répond: “non, c’était ma machine à café.” “

Bien que le document se préoccupe principalement de l’efficacité d’un appareil posant des questions à l’utilisateur comme celle-ci, les chercheurs expliquent qu’ils ont également essayé des cas d’utilisation spécifiques. “Nous avons créé une application de haut-parleur intelligent qui utilise Listen Learner pour étiqueter les événements acoustiques afin de faciliter l’accessibilité à la maison”, dit-il.

Rien n’indique qu’Apple ou d’autres sociétés intègrent cette idée dans leurs haut-parleurs intelligents. Au lieu de cela, il s’agissait d’un test ciblé à court terme, et l’équipe a des recommandations pour de nouvelles recherches.

Cependant, c’est prometteur car ils concluent que ce test “fournit des niveaux de précision adaptés aux cas d’utilisation courants de reconnaissance d’activité” et rapproche “la vision des interactions contextuelles de la réalité”.