Officiel : le crawl budget de GoogleBot, c’est quoi ?

Mathieu Chartier Référencement 0 commentaire

GoogleBot et l'indexation selon l'adresse IP des sites web

Google a publié un long article sur ses blogs officiels afin d'expliquer sa propre version de la définition du budget d'exploration (ou crawl budget). Il faut dire qu'il s'agit un peu d'un terme qui revient comme une rengaine, donc autant avoir une définition précise ou tout du moins officielle. Mot pour mot, Google indique que le budget d'exploration correspond au nombre d'URL que Googlebot peut et veut explorer.

Maintenant que nous savons ça, détaillons quelque peu ce qui amène Google à nous dire ça. Il faut considérer que GoogleBot est un robot "intelligent" qui veut économiser son temps de crawl et qui souhaite aussi tourner uniquement quand cela est utile et pertinent. Par conséquent, il convient de faire des sites web bien foutus et les plus rapides possibles pour favoriser un meilleur crawl. Qu'on veuille se l'avouer ou non, c'est du gagnant-gagnant, c'est-à-dire qu'un meilleur crawl favorise une meilleure indexation et que des codes mal foutus peuvent être totalement contre-productifs pour l'indexation (les exemples sont cités en bas de cet article).

Sachez que toute ressource est comptabilisée dans le budget d'exploration de GoogleBot, c'est-à-dire les versions AMP, les scripts Javascript, le CSS, etc. Cela peut donc influencer (à la baisse) la capacité d'exploration du robot d'indexation si cela n'est pas correctement optimisé. Google précise d'ailleurs les deux grandes familles de facteurs qui favorisent un meilleur crawl budget :

  • Vitesse d'exploration du site
  • Besoin d'exploration

Vitesse d'exploration de GoogleBot

Concernant la vitesse d'exploration du site, Google définit une limite maximale qui lui indique combien de connexions simultanées GoogleBot pourra effectuer sur un même site à un temps donné. J'ai déjà évoqué cela sur ce blog ou dans mes livres, mais GoogleBot analyse deux types de vitesse : un "ping" vers les sites web pour l'indexation, un score de vitesse (PageSpeed) pour le positionnement. Nous sommes ici dans le cas du ping, c'est-à-dire que le crawler vérifie que la route est libre sur un site puis fonce pour faire sa visite selon les capacités d'exploration mesurées. Seuls deux critères peuvent donc affecter la vitesse d'exploration :

  1. L'état de l'exploration. Le ping vérifie que le site répond rapidement ou non, s'il a des erreurs (page d'erreurs notamment), etc. En d'autres termes, plus le site répondra vite, plus il risque d'être crawlé... Et mieux crawlé.
  2. La jauge de vitesse d'exploration définie dans la Google Search Console. les webmasters peuvent atténuer la vitesse d'exploration en demandant à GoogleBot de procéder à moins de connexions simultanées sur leur site, il suffit de régler la vitesse d'exploration dans la Search Console.

Crawl budget GoogleBot : limitez la vitesse d'exploration dans la Google Search Console

Besoin d'exploration de GoogleBot

Le besoin d'exploration correspond à l'intérêt pour GoogleBot d'aller crawler ou indexer des pages web. Cela relève essentiellement de quelques critères simples :

  • Popularité d'un site web : plus un site est rafraîchit ou populaire, plus Google lui accorde de l'intérêt.
  • Le suivi des redirections ou des refontes : GoogleBot cherche à indexer les bonnes URL pour les sites en cours de déplacement.
  • L'obsolescence : GoogleBot s'efforce de ne pas désindexer certaines pages donc fait l'effort de crawler à nouveau des pages qui sembleraient moins "majeures".

Ce qu'il vaut éviter pour favoriser un meilleur crawl budget

Étant donné que l'ensemble des ressources d'un site web compte dans le calcul du crawl budget, c'est-à-dire dans la capacité et la volonté d'indexation de GoogleBot, il faut bien réfléchir à ce que l'on fait dans nos sites web, notamment lorsque le nombre de pages prévu est très important (le budget d'indexation influence surtout les très gros sites web, c'est moins impactant sur les petits sites dixit Google). Voyons donc la liste des facteurs limitants présentés officiellement par Google :

  • Navigation à facettes
  • Identifiants de session
  • Contenu en double sur le site
  • Pages d'erreurs "soft 404"
  • Pages piratées
  • Espaces infinis et proxys
  • Contenu de mauvaise qualité et spam
  • Version AMP d'un site
  • Version multilingues avec l'attribut "hreflang"
  • Nombre de fichiers Javascript et CSS

Cela fait déjà pas mal non ? En d'autres termes, tout ce que l'on fait impacte le crawl budget, il convient donc de bien réfléchir à l'UX design, à l'ergonomie du site mais surtout aux méthodes employées pour les développer. Quand on voit certains sites qui comptent presque plus de scripts Javascript qu'il n'y a de phrases de texte, j'ose imaginer le bonheur pour GoogleBot lorsqu'il calcule le crawl budget... :D

Conclusion

Les webmasters ont désormais une définition officielle (mais tronquée ?) du crawl budget de GoogleBot. Elle est très simple, elle mesure la capacité et l'envie du robot d'indexer certaines pages d'un site à un moment précis. Plus vous ferez un site rapide, utilisant des structures plus simples sans erreur grossière (soft 404, erreurs 5xx...), plus vous aurez de chance d'être souvent crawlé et mieux crawlé. Toutefois, ne faisons pas d'amalgame, cela n'impactera aucunement le positionnement, juste la qualité de l'indexation !