Yandex lance l’algorithme Palekh pour mieux comprendre les requêtes

Mathieu Chartier SEO 0 commentaire

Quelques mois après le lancement officieux de Google RankBrain, Yandex annonce un algorithme nommé Palekh qui a pour but lui aussi de mieux comprendre les requêtes et de les traiter avec précision. Palekh fonctionne sur des réseaux de neurones (machine learning) et de l'intelligence artificielle, à l'instar de son cousin chez Google, même si quelques différences sont certainement existantes entre les deux systèmes.

Drapeau russe et moteur de recherche Yandex

L'intelligence artificielle est devenue le cheval de bataille de toutes les grandes firmes mondiales, nous allons donc voir des réseaux de neurones être utilisés de plus en plus fréquemment, notamment dans le microcosme de la recherche sur le web. Avec l'algorithme Palekh, Yandex se place au même niveau que Google en matière d'interprétation des requêtes, ce qui confère au moteur la possibilité d'analyser le sens profond des recherches des utilisateurs, et non plus une simple analyse mot à mot comme par le passé.

Le communiqué officiel indique que le moteur russe atteint 280 millions de recherches par jour. Yandex précise notamment que les requêtes de longue traîne (plusieurs mots) constituent à elles seules plus de 100 millions de recherches par jour. La firme en a d'ailleurs profité pour réexpliquer à sa façon le concept de la longue traîne. Elle considère qu'il faut imaginer un oiseau à découper en trois parties :

  • Le bec, tout petit, correspond aux requêtes et questions fréquentes, mais en assez peu nombreuses (les requêtes phares).
  • le tronc, de taille moyenne, correspond aux requêtes de moyenne fréquence (recherches courantes non considérées comme de la longue traîne car elles reviennent plus fréquemment individuellement).
  • La queue équivaut à la longue traîne, à savoir à un nombre important de requêtes complexes tapées peu fréquemment sur le plan individuel.

La longue traîne (long tail) selon Yandex

Yandex explique que pour les requêtes du "bec", il est assez simple de fournir des résultats pertinents car le moteur bénéficie de nombreuses statistiques et de croisements de données pour savoir quelles pages méritent d'être mieux classées. En revanche, c'est tout l'inverse pour la majorité des requêtes de la longue traîne, souvent difficile à comprendre sémantiquement. Le moteur souhaitant proposer toujours de meilleurs résultats, les groupes formés via des réseaux de neurones peuvent permettre de mieux analyser les requêtes et mieux les comprendre, afin de proposer des SERP pertinentes.

Je ne suis pas un expert des réseaux de neurones (j'en ai déjà trop peu pour moi-même... ^^), il faudrait demander des précisions aux frères Peyronnet par exemple, mais si j'ai bien compris, Yandex analyse des centaines de critères avec une représentation dans l'espace pour analyser les vecteurs et les similarités entre les requêtes, les comportements utilisateurs et les résultats. La firme explique cela sur un plan en deux dimensions, et lorsqu'une requête semble correspondre à des pages web, les résultats sont restitués. Je les fais très courte ici mais tout se passe dans des groupes numérotés et analysés à la volée par correspondance dans l'espace (Yandex parle de vecteurs sémantiques pour cela).

Yandex et le fonctionnement des réseaux de neurones (vecteurs sémantiques)

Sachez que l'algorithme Palekh ne se limite pas à un usage pour la recherche web, d'autres services dont la recherche d'images profitent également des bienfaits de l'intelligence artificielle (et aussi de l'apprentissage automatique mis en place dans ce système). C'est une belle avancée pour le moteur russe et si l'on en croit des déclarations parallèles de porte-paroles, c'est loin d'être fini puisque Yandex prévoit d'utiliser la prédiction sur les clics pour évoluer, etc.