Google a souhaité vulgariser le système de correction orthographique de son moteur de recherche pour que les internautes comprennent mieux ce qui se trame derrière ces requêtes corrigées à la volée. En 2021, Google détecte 1 requête sur 10 comme mal orthographiée, et propose des alternatives corrigées pour aider les internautes à mieux s'y retrouver.
Les équipes de recherche de Google estiment qu'il existe deux catégories principales de fautes d'orthographe dans les requêtes : les erreurs conceptuelles et les coquilles. On pourrait ajouter à cela les fautes standards, partant tout simplement du méconnaissance orthographique des mots. Selon Google, les erreurs conceptuelles reposent essentiellement sur les recherches de mots/noms complexes dont l'orthographe est incertaine dans l'esprit des gens. La firme prend l'exemple du mot gobbledygook ("charabia" en français), qui peut aussi s'orthographier gobbledegook et qui reste complexe à orthographier. Difficile à épeler et à écrire, ce type de mot peut générer de nombreuses fautes d'orthographe que Google tente de corriger.
Dans le cas des coquilles, l'erreur incombe essentiellement à notre gestuelle (erreur de saisie sur un clavier, avec un stylet ou le tactile...), et non plus à une méconnaissance orthographique. Ce phénomène, très courant, pose davantage de problèmes de détection d'erreurs pour les moteurs de recherche. En effet, les fautes qui découlent des coquilles peuvent être uniques ou extrêmement rares, et donc difficiles à déceler pour les systèmes de correction automatique. Google cite l'exemple du mot YouTube dont il peut exister près de 10 000 variantes orthographiques si l'on se fie à toutes les coquilles possibles et imaginables. Difficile pour les moteurs d'évaluer correctement le mot ciblé à l'origine dans certains cas...
Comment Google corrige les fautes d'orthographe ?
Google utilise différents systèmes pour corriger les fautes d'orthographe, notamment en s'appuyant sur ses bases de données très complètes et des systèmes d'apprentissage automatique (intelligence artificielle avec réseaux de neurones notamment). Comme je l'expliquais dans mon propre moteur de recherche en PHP (à des années-lumières des systèmes de Google), il est déjà possible d'anticiper des erreurs, des coquilles ou de vraies fautes d'orthographe avec des algorithmes réputés comme l'analyse des metaphones (similitudes phoniques/syllabiques des mots) ou encore en jouant avec la distance de Levensthein ou autres équivalents. Ici, Google est allé chercher bien plus en profondeur et lui confère une qualité de correction hors du commun.
Certaines erreurs de frappe n'apparaissent que quelques fois, voire une seule fois, et Google se doit de trouver une parade. Pendant des années, Google s'est tout simplement fié à la forme des claviers, selon les langues ciblées. Ainsi, le moteur arrivait à envisager certaines erreurs de frappe en contextualisant les signes environnants la lettre qui potentiellement serait la bonne. Par exemple, si vous tapiez "y" au lieu de "t" dans un mot, Google allait chercher les lettres situées proches du "y" pour tester les mots potentiels qui pourraient être mieux orthographiés. Ce procédé ne fonctionnait pas seul bien entendu, mais a permis de corriger bon nombre d'erreurs, même dans des fautes conceptuelles.
Désormais, Google s'appuie essentiellement sur des réseaux de neurones évolués (deep learning), avec un nouvel algorithme dédié à la correction orthographique publié en fin d'année 2020. Google estime tester près de 680 millions de paramètres en moins de 2 secondes avec ce nouveau système, lui permettant alors de corriger presque tous les types de fautes d'orthographe, même quand le cas est unique. Avec l'intelligence artificielle, Google ne se contente plus d'une analyse textuelle des mots, mais s'appuie sur une recherche contextuelle. Par conséquent, le moteur de recherche peut aisément détecter le sens des mots (ou expressions) et donc relever des fautes qui se glissent dans les requêtes. Par exemple, si vous recherchez en anglais average home coast ("côte moyenne d'un logement"), Google déduit grâce au contexte que vous cherchez sûrement average home cost ("coût moyen d'un logement").
Google utilise plusieurs systèmes pour prévenir d'une correction orthographique. Si le moteur pense que vous avez pu vouloir signifier autre chose, alors il suggère une correction. En revanche, quand une faute semble évidente, le moteur propose directement la version corrigée de la requête avec les résultats correspondants, en proposant un moyen de revenir à la requête originelle. Selon le comportement des utilisateurs, Google s'enrichit encore et apprend à mieux évaluer les requêtes et leur orthographe. Dans tous les cas, Google apprend donc et s'améliore pour notre plus grand bonheur... ^^