Google I/O 2019: L'IA de Google au service de l'humain et de l’accessibilité
CONFERENCE•Android Q sera capable de sous-titrer n'importe quelle vidéo, et Google veut faire progresser la reconnaissance vocale pour ceux qui souffrent de troubles du langagePhilippe Berry
De notre correspondant en Californie,
« Comprendre et être compris, c’est extraordinaire. » Dimitri Kanevsky, chercheur chez Google, est sourd depuis l’enfance et s’exprime en anglais avec difficulté, sans être capable d’entendre sa prononciation. Mais grâce aux progrès de la reconnaissance vocale, les algorithmes retranscrivent sa parole avec fidélité, et l’entreprise veut améliorer sa technologie pour tous ceux souffrant de troubles du langage avec le projet Euphonia, annoncé mardi lors de la conférence Google I/O.
Parallèlement, la prochaine version d'Android, attendue à l'automne, sera capable de sous-titrer n’importe quelle vidéo en direct, même sans réseau, avec la fonction Live caption, une avancée majeure pour l’accessibilité. « On travaille depuis 18 mois sur ces défis ayant un impact positif sur l’environnement ou la société », explique Julie Cattiau, product manager chez Google en charge de l’initiative « AI for social good » (L’IA pour le progrès social).
Améliorer la reconnaissance vocale pour ceux qui en ont le plus besoin
Des centaines de millions de personnes souffrent de troubles du langage dans le monde. Bégaiement, AVC, maladies de Charcot (comme Stephen Hawking) ou de Parkinson, sclérose en plaques… Ils peuvent exister depuis la naissance ou être la conséquence d’un accident ou du vieillissement. Avec son projet Euphonia, Google a lancé un appel au public pour enregistrer des phrases test afin d’améliorer sa reconnaissance vocale.
Pour faire progresser les algorithmes grâce au machine learning, il faut des exemples pour les entraîner. Dimitri Kanevsky a studieusement enregistré 15.000 phrases de test. « On a obtenu un modèle sur mesure avec un très faible taux d’erreurs. Mais l’idée, c’est de réussir à faire fonctionner la reconnaissance vocale pour un groupe ou une communauté. Deux personnes ayant la maladie de Charcot ont des intonations similaires, et on pense être capable d’établir un profil », explique l’ingénieure, qui a fait ses gammes sur Google Translate ». Pour l’instant, Google en est au stade de la recherche et se concentre sur l’anglais, mais Julie Cattiau espère une extension à d’autres langues comme le français par la suite.
Des sous-titres en direct et en local
Android Q, qui sera lancé à l’automne, sera de son côté capable de sous-titrer n’importe quelle vidéo, qu’elle vienne de YouTube, Facebook ou d’un chat Duo, en temps réel. Là où c’est très fort, c’est que c’est réalisé « on device », directement sur le smartphone, sans passer par le Cloud. Traduction : Live caption n’enverra pas de données vers les serveurs de Google et fonctionnera même sans réseau téléphonique. Pensée pour aider les personnes ayant des troubles de l’audition, cette technologie pourra également être utile pour regarder des vidéos sans le son afin de ne pas gêner ses voisins dans les transports.
Diagnostiquer la résistance aux antibiotiques
Après le son, l’imagerie médicale. Google a attribué une bourse d’1,4 million de dollars à Médecins sans frontières dans le cadre de la compétition « AI Global Impact Challenge ». MSF va pouvoir accélérer le développement d’une appli qui utilise « le traitement de l’image et l’intelligence artificielle pour faciliter l’interprétation des tests qui mesurent la résistance aux antibiotiques ».
Là aussi, l’analyse sera faite directement sur le smartphone, sans le Cloud, un point particulièrement important dans les zones reculées. L’application « permettra au personnel de MSF ainsi qu’à d’autres professionnels de santé non spécialisés d’analyser les images d’antibiogrammes à l’aide d’un smartphone ou d’une tablette, et de l’orienter vers le traitement le plus adapté à chaque patient ».