Google tente de lutter au mieux contre les fake news et les contenus factices depuis plusieurs mois. Après avoir déjà bien progressé autour des contenus textuels, la firme voudrait désormais insister sur les contenus audio factices ou détournés de leur usage originel. En effet, des systèmes d'intelligences artificielles et de voix de synthèse pourraient permettre de tromper les utilisateurs d'après Google, et il est primordial de prendre le problème à la source dès maintenant.
Plus le temps défile, plus les technologies de text-to-speech (TTS) sont présentes partout (par exemple : Google Translate peut traduire vocalement ce que vous dites ou écrivez). Au-delà des avantages pratiques de ces systèmes vocaux, l'avantage est en outre d'améliorer l'accessibilité de nombreuses informations pour les personnes ayant une déficience visuelle.
Comme l'explique Google dans son communiqué, les nombreuses avancées en matière d'intelligence artificielle et sur les réseaux de neurones permettent de concevoir des voix de synthèse de plus en plus réalistes et proches de ce que l'Homme peut produire. Problématique, il devient par conséquent de plus en plus simple de contourner ces systèmes ou d'en profiter pour développer des contenus audio factices, facilitant la propagation de fake news ou d'autres pratiques à éviter.
Google a donc compilé des milliers de phrases issus de discours "synthétiques" et de pas moins de 68 voix différents (avec des accents régionaux divers) afin d'obtenir une base de données relativement importante. Ainsi, il sera possible d'étudier ces voix de synthèse pour contrer d'éventuels sons factices. L'idée est de limiter les faux discours et les fausses voix au maximum pour éviter la multiplication de hacks autour de ces systèmes audio. Google a proposé le ASVspoof Challenge 2019 pour que des acteurs extérieurs participent et tentent de mieux sécuriser les systèmes de vérification des locuteurs (ASV : automatic speaker verification).
L'idée de Google est de contribuer au maximum mais d'intégrer également des entreprises ou personnes extérieures via l'ASVspoof, dont les résultats seront communiqués en septembre lors de la conférence Interspeech 2019 à Graz, en Autriche. L'objectif est de créer des modèles basés sur des voix réelles et sur des voix de synthèse, en plus de l'analyse des 68 voix connues par Google. Ainsi, l'intelligence artificielle permettra certainement de mieux repérer les vraies voix des fausses, et donc limiter les contenus audio factices. L'initiative est bonne, il ne reste plus qu'à voir les résultats à terme. Pour une fois, reconnaissons que Google a pris les devants bien avant que le problème soit courant et bien installé dans l'Internet mondial, c'est plutôt une bonne nouvelle...