Google utilise-t-il le CTR et les survols pour classer les images ? (brevet)

Mathieu Chartier Référencement 1 commentaire

Comment Google classe-t-il les images ? Cette question peut toujours se poser puisque les éléments déterminants qui permettent de valoriser les images sont relativement peu nombreux. Nous savons que le moteur de recherche utilise le contexte sémantique de l'image, son texte de remplacement (attribut "alt" en HTML), son intitulé propre (nom du fichier) voire aussi quelques autres facteurs. Lors de mes récentes aventures, je suis tombé sur un brevet qui me semble intéressant à partager, découvrons ensemble son intérêt.

Classer les résultats de recherche d'images selon les données de survol

Google a publié un brevet le 22 décembre 2015 intitulé Ranking image search results using hover data. Avec ce titre quelque peu évocateur, il semblerait que le moteur de recherche d'images souhaite trouver d'autres méthodes pour améliorer encore la pertinence de ses résultats. Ce brevet décrit comment Google peut mieux classer les images dans Google Images (au moins) grâce à des données de survol, de taux de clics voire même grâce au nombre d'impressions. Rien ne dit que cela est et sera appliqué, mais techniquement, c'est plus qu'envisageable tant cela n'est pas trop contraignant (en comparaison à d'autres systèmes utilisés par le moteur).

Le schéma ci-dessous explique le processus complet d'indexation puis de ranking des images par le moteur de recherche. Rien de bien innovant ici pour les connaisseurs, Google utilise souvent son système de classement puis l'ajuste en fonction d'un nombre variant de facteurs (ce que l'on peut voir en 230 et 240 sur le schéma). Nous voyons également que Google enregistre tout (logs) car les données sont sans cesse réutilisées pour booster la pertinence.

Processus d'indexation et de classement des images dans Google Images

L'étape déterminante consiste à accorder un Quality Score à chaque image selon les requêtes tapées par les utilisateurs. C'est dans cette phase (304) que le nouveau système d'analyse des survols d'images vont agir afin d'affiner ce score de qualité pour chaque image.

Classement des images grâce à un quality score

Améliorer la pertinence avec le taux de clics (CTR) et les survols (hover)

Google souhaite adapter la pertinence du classement des images en utilisant le taux de clics (CTR) et les survols (hover) afin de déterminer les images qui sembleraient le mieux correspondre à chaque requête tapée par les utilisateurs. Pour ce faire, il a pensé à un processus simple à mettre en œuvre :

  1. Identifier les paires image/requête
  2. Déterminer le nombre de clics pour chaque paire image/requête
  3. Déterminer le nombre de survols (hover) pour chaque paire image/requête
  4. Déterminer le score de qualité de chaque image en se basant au moins sur les deux facteurs précédents (nombre de clics et de survols) pour chaque requête qui affiche les images en question.

En d'autres termes, Google procède d'abord à un calcul de Quality Score global pour chaque image en fonction des requêtes correspondantes. Cette "note" sert de base pour chaque image et inclut le nombre total de clics et de survols sur les images selon chaque paire image/requête.

Déterminer le taux de clics et de survols sur les images (Google brevet)

Affinage de l'analyse pour booster le ranking des images

Dans un schéma détaillé, le brevet de Google indique comment il peaufine son analyse afin de mieux attribuer le Quality Score aux images et de mieux les classer dans le moteur de recherche. Pour ce faire, il détermine tout d'abord le poids de la requête (nous savons que toutes les requêtes n'ont pas la même "valeur" aux yeux de Google), qui permet en conséquence de calculer la valeur du survol dans les facteurs de ranking (502 et 504 sur le schéma ci-dessous).

Google ajuste ensuite sa note de départ pour chaque image en fonction du nombre de survols comptabilisés (selon la valeur attribuée au survol) mais aussi grâce au nombre de "sélections" total de l'image (nombre d'interactions avec l'image dans le moteur, à savoir les survols, les clics, etc.). Une fois l'analyse faite indépendamment pour chaque image de chaque requête, cela permet au système de mesurer le nombre total de survols pour chaque paire image/requête (certainement utilisé pour calculer un "taux de survol"), qui sera lui-même ajusté en fonction de la valeur du survol.

Google peut ensuite déterminer le nombre total d'interactions avec chaque image selon chaque requête qui les affiche. Tout ce processus lui permet de mesurer le Quality Score ajusté pour chaque image, utile pour le ranking final.

Ajustement du ranking des images dans Google Images (brevet)

Un peu plus loin dans le brevet, Google explique aussi que le nombre d'impressions pour chaque image peut se révéler déterminant, cela semble plutôt pertinent. En effet, les premières images risquent toujours d'obtenir plus de clics et de survols. De fait, il serait compliqué pour les images "lointaines" dans le classement de remonter alors qu'elles ne sont peut-être même pas vues par les internautes. En mesurant aussi le nombre d'impressions, cela permet d'affiner ce Quality Score et d'aider aussi un peu les images qui sont moins en vue dans les résultats de recherche d'images.

Affinage du Quality score des images selon le nombre d'impressions (brevet Google)

Le schéma ci-dessus montre comment Google boucle la boucle, avec de multiples affinages transversaux. Ainsi, le nombre de survols et le taux de clics ne suffisent pas à positionner les images, c'est un ensemble de critères qui sont pris en compte et reliés entre eux pour que le Quality Score soit le plus pertinent possible selon chaque requête de recherche d'images.

Ce brevet récent n'est peut-être pas appliqué, et ne le sera peut-être jamais d'ailleurs, mais il serait bon d'aller interroger nos amis les Googlers pour en savoir davantage... :D