C'est un sujet qui fait débat depuis de nombreuses années : Google est-il capable de lire du texte incrusté dans des images ? Si l'on en croit un brevet publié le 3 janvier 2008 (dont l'intitulé français est évocateur : Reconnaissance de texte dans les images), cela semble pouvoir être le cas, mais si nous écoutons Gary Illyes en 2016, c'est le contraire qui l'emporte.
Le googler de Google Zurich a répondu négativement à une question qui lui était posée sur Twitter à ce sujet. Le twittos a demandé à Gary Illyes si GoogleBot était capable de lire du texte dans les fichiers .jpg ou .gif, affirmant que certains SEO lui disaient que c'était possible. Il semblerait que ce ne soit pas le cas...
En 2008, le brevet tout juste publié par Google affirmait qu'il était plus facile pour le moteur de recherche de lire du texte dans une image que de comprendre et associer des valeurs d'attributs HTML à l'illustration en question. Par conséquent, la déclaration de Gary Illyes est étonnante sur ce point. Je vais même plus loin, je me souviens lors de l'écriture de mon premier livre sur le référencement être tombé sur une page de la documentation de Google qui expliquait comment Google décrivait du texte dans les images (si je retombe dessus, je vous publie le lien, je n'arrive pas à le retrouver pour le moment).
D'autres brevets dans le même esprit...
Google a publié d'autres brevets propres à la reconnaissance des textes dans les images depuis 2008, dont un récent le 30 mai 2014 intitulé Using extracted image text. Le 10 novembre 2015, Google a ajouté un brevet encore plus précis intitulé Text recognition for textually sparse images. Je ne vous cite pas tous les brevets que j'ai pu trouver entre 2008 et 2016 à ce sujet, mais il y en existe un certain nombre qui décrive des systèmes de reconnaissance optique (OCR) de textes ou d'objets dans les illustrations et fichiers PDF.
Si nous cherchons la petite bête, il est étonnant que Google ne sache pas lire du texte dans une image alors qu'il propose l'API Google Cloud Vision pour la reconnaissance des objets (notamment utilisée avec la technologie de machine learning TensorFlow pour tagger automatiquement des images dans Google Photos). En gros, le moteur sait reconnaître parfaitement des objets, mais pas lire du texte ?
Enfin, sachez que Google Drive propose la reconnaissance optique des caractères (OCR), qui permet d'extraire du texte à partir d'images ou de fichiers PDF (Google Keep, Google Docs et Gmail utilisent également des fonctionnalités similaires). D'ailleurs, n'avez-vous jamais vu vos fichiers PDF "traduits" en texte dans les SERP ? Cela m'est arrivé plus d'une fois, donc il existe forcément un système algorithmique équivalent à celui de Google Drive qui lit et mute les textes provenant des fichiers (après, rien ne dit que ça le fait pour les images...).
J'avoue rester un peu dubitatif face à la réponse de Gary Illyes. Certes, je ne dis pas que cela est un critère de ranking, mais il me semble que la reconnaissance des textes soit plutôt bien maîtrisée par Google depuis des années, et cela serait surprenant que Google n'en tire pas profit pour mieux identifier les illustrations (au moins pour Google Images)...