Fabrice Canel, responsable de programme principal pour Bing Webmaster Tools, a évoqué dans un article du 16 octobre 2018 les récents changements apportés au moteur de recherche Bing en matière d'indexation. La société cherche à crawler de mieux en mieux les contenus afin de ne pas en laisser passer en chemin au détriment des éditeurs de sites web. Le responsable avait déjà évoqué en juin que des changements majeurs seront mis en place pour le crawl de Bing durant les 18 prochains mois. Une série d'articles officiels devraient donc raconter les étapes évolutives de cette mutation...
Fabrice Canel explique que BingBot, le robot principal du moteur de recherche, utilise un algorithme pour déterminer les sites à analyser, la fréquence de passage et le nombre de pages à analyser. Il s'agit en quelque sorte d'un crawl budget pour Bing, lui permettant d'évaluer le "coût" d'indexation avant de se lancer dans la bataille. L'objectif de cet algorithme est clair, BingBot doit limiter ses analyses au maximum tout en conservant le même niveau de qualité en matière d'indexation des contenus. Voici ce que dit le communiqué officiel à propos de la nouvelle méthode d'indexation :
Le processus algorithmique sélectionne les URL à analyser en donnant la priorité aux URL connues et pertinentes qui ne sont pas encore indexées, et aux URL déjà indexées pour lesquelles nous vérifions si des mises à jour sont en cours afin de nous assurer que le contenu est toujours valide (par exemple, pas de lien mort) et que rien n'a changé. Nous analysons également le contenu spécifique à la découverte de liens vers de nouvelles URL à découvrir. Les plans Sitemap et les flux RSS/Atom sont des exemples d'URL extraites principalement pour découvrir de nouveaux liens.
BingBot prend en compte les demandes des utilisateurs et tente de s'expliquer dans le communiqué officiel. En effet, des webmasters se sont plaints que BingBot crawlait trop souvent leurs pages, affectant ainsi les performances, tandis que d'autres trouvent justement que le robot de Bing ne passe pas assez fréquemment. Les équipes du moteur de recherche de Microsoft ont donc pris en compte toutes ses remarques et tentent de faire en sorte de convenir davantage à tout le monde. Actuellement, les ingénieurs planchent sur des techniques qui permettraient à chacun de trouver son compte, et le nouvel algorithme d'indexation devrait permettre de mieux réguler les fréquences de passage, etc.
Bing cherche même à mieux évaluer l'intelligence d'analyse de BingBot, afin de s'assurer que la qualité d'indexation s'améliore. Les équipes analysent l'efficacité de l'analyse, c'est-à-dire la fréquence à laquelle BingBot explore et découvre des contenus nouveaux et frais pour chaque page crawlée. Idéalement, BingBot doit analyser des URL uniquement si du contenu a été ajouté (URL non analysée auparavant) ou s'il a été mis à jour (fraîcheur des contenus ou nouveaux liens sortants utiles). BingBot s'efforce donc d'éviter de crawler plusieurs fois des pages dont le contenu reste inchangé ou dupliqué, afin de ne pas faire baisser la métrique d'efficacité d'analyse. Espérons donc que ce nouvel algorithme de crawl budget apporte son lot de bonnes surprises sur le moteur de recherche avant que d'autres mises à jour le complète...