Bing Images explique comment fonctionne l’IA pour décrypter les images

Mathieu Chartier Référencement 0 commentaire

Bing s'efforce d'expliquer aux utilisateurs comment fonctionne son moteur de recherche, notamment depuis que l'intelligence artificielle et le deep learning sont intégrés dans les processus d'analyse et de recherche. Après avoir présenté ses méthodes d'analyses sémantiques pour les requêtes, le moteur de Microsoft s'est expliqué sur la recherche d'images, avec notamment la reconnaissance des formes et des objets en toile de fond...

Le communiqué explique que toute la difficulté du moteur d'images est de pouvoir rendre les bonnes images selon les requêtes tapées. Cela implique donc plusieurs phénomènes qu'il faut corréler pour obtenir de bons résultats :

  • compréhension de la requête à tout point de vue ;
  • analyse en profondeur du contexte de l'image (alt, textes environnants, mots clés dans le nom du fichier...) ;
  • analyse directe de l'image (reconnaissance des formes, des objets voire même des "ressentis").

Bing ne cherche plus à répondre à des requêtes juste en cherchant les mots d'une requête associés à des images enregistrées dans un index. Cela correspond aux moteurs d'images d'hier... L'objectif est de pouvoir décrypter des requêtes pour afficher des résultats probants, même si les mots employés ne sont pas toujours explicites. Prenons l'exemple fourni par Bing avec la requête "gommes pour effacer qui ressemblent à des outils". Ici, l'objectif du moteur d'images est d'identifier que l'utilisateur souhaite afficher des gommes en forme d'outils. Cela implique donc une analyse sémantique de la requête dans un premier temps. Ensuite, il va falloir aller chercher dans la banque d'images toutes celles qui correspondent et possèdent des entités préalablement détectées grâce à la reconnaissance des formes ("gomme", "effacement", "outils"...). Cela demande donc un travail important, sachant que la restitution des résultats doit se faire en quelques secondes grand maximum.

Bing décrit la forme des images pour répondre aux requêtes

La reconnaissance des formes dévoile toute son importance dans un autre cas présenté par Bing. L'image ci-dessous montre un cachalot, avec un homme qui nage dans la mer bleue juste à côté de lui. Cette même image peut répondre aussi bien à la requête "homme qui nage avec un cachalot" qu'à une requête plus généraliste comme "faune dans l'océan". Bing doit donc identifier chaque partie significative de l'image afin d'associer des entités définies. Ces données permettront ensuite de répondre aux requêtes tapées grâce aux corrélations entre les entités (vecteurs sémantiques). Les techniques de visualisation dans les images permettent de reconnaître de mieux en mieux les objets et les formes, et de les associer à des expressions clés spécifiques (à droite dans la capture).

Bing Images décrit les entités sémantiques des images avec la reconnaissance des formes

L'algorithme Deep Image Ranking de Bing

Pour classer les images, Bing utilise un algorithme appelé Deep Image Ranking. Ce dernier réalise le travail de classement en trois étapes principales :

  1. Analyse sémantique de la requête (étape "matching").
  2. Décryptage des images en plusieurs étapes coûteuses afin de faire ressortir tous les candidats potentiels répondant à la requête. Cette étape permet déjà de classer une première fois les images entre elles en les analysant de manière indépendante (étape "ranking").
  3. Nouveau classement des images en plusieurs étapes en se focalisant sur le groupe de candidats identifiés (et non plus sur les images indépendamment), et restitution des résultats (étape "Set ranking").

Ranking des images dans Bing Images après analyse sémantique et reconnaissance des formes

Ce qui semble étonnant dans la manière de procéder, c'est de devoir effectuer un travail d'analyse coûteux pour chaque requête. Très sincèrement, je pensais que chaque image ajoutée dans l'index était décryptée via la reconnaissance des formes. Ainsi, Bing Images n'avait plus qu'à aller chercher dans son index les images dont les entités préalablement détectées correspondaient avec la requête initiale. C'est peut-être ainsi que le moteur procède pour économiser de la charge et de l'énergie mais ce n'est clairement pas explicité dans l'explication officielle...

Une fois cette étape réalisée, Bing Images s'intéresse à la correspondance sémantique entre le corpus d'images sélectionnés et la requête tapée. Pour cela, il s'agit une nouvelle fois de faire rapprocher des vecteurs afin de trouver les notions proches, et donc les images pertinentes pour la requête. Bing Images utilise deux approches pour cela : l'ANN (Approximate Nearest Neighbor) qui vise à déterminer le vecteur le plus proche (méthode classique), et aussi un couplage d'analyses groupées avec des vecteurs denses (sujets majeurs) puis des vecteurs affinés (détermination détaillée des entités). La seconde méthode permet d'obtenir des résultats plus précis mais aussi d'être plus performante en termes de performance. Bing Images avance donc encore pour faire progresser les méthodes de correspondance sémantique, pour le bien des utilisateurs mais aussi de ses propres serveurs. La capture suivante décrit la méthode présentée :

Bing Images utilise le deep learning pour faire des correspondances sémantiques

Le Deep Learning permet quant à lui de mieux déterminer le classement définitif des images (étape "Set Ranking" du Deep Image Learning). Son but est d'identifier la distance sémantique entre tous les vecteurs préalablement calculés. Il s'agit d'une dernière étape fine pour être sûre de coller au mieux à la requête, et donc de proposer le meilleur classement d'images possible.

Usage du Deep Learning pour calculer la distance entre les vecteurs sémantiques dans Bing Images

Bing travaille aussi d'autres étapes pour affiner le classement mais ne détaille pas tout bien entendu (sinon il ne reste qu'à voler l'idée... ^^). La présentation se conclut donc avec deux exemples de captures répondant à des requêtes analysées sémantiquement. Les deux requêtes suivantes ont imposé à Bing Images une reconnaissance des formes et une analyse sémantique pour offrir des résultats pertinents, ce qui n'aurait pas permis les techniques ancestrales...

Bing Images et la reconnaissance des formes

Bing Images et la reconnaissance des formes