Google a annoncé une mise à jour du fonctionnement du crawler pour réduire le volume de ressources nécessaires pour ses tâches de lecture des pages web. Dès la mi-novembre 2020, GoogleBot va utiliser HTTP/2 pour booster les performances du crawl de manière générale.
Cela peut sembler être un changement mineur mais il s'agit bel-et-bien d'une avancée intéressante pour le crawler tant l'usage des ressources est important. Avec le protocole HTTP/2 (ou H2 en diminutif), une seule connexion au serveur peut être envoyée pour effectuer plusieurs traitements en parallèle, là où la première mouture d'HTTP force à effectuer autant de connexions que de traitements. Si votre programme permet de gérer plusieurs traitements asynchrones, alors HTTP/2 peut apporter un réel confort et de bien meilleures performances générales. Google a donc pensé à améliorer GoogleBot en ce sens, pour rendre le crawl plus efficace et performant.
Le moteur de recherche va procéder par étape pour migrer son crawler vers la version compatible HTTP/2. Dans un premier temps, seuls quelques sites seront lus avec ce protocole, puis de plus en plus seront pris en compte au fur et à mesure de l'avancée des fonctionnalités (pour tout les sites qui présentent un avantage clair à opter pour cette méthode). La seule règle d'éligibilité est que votre serveur fonctionne avec HTTP/2, afin que GoogleBot en tire profit lors du crawl. Si votre serveur est toujours en HTTP/1.0 ou HTTP/1.1 alors GoogleBot continuera de le crawler comme il l'a toujours fait, ce sera juste un peu moins performant pour lui (mais pour le site, cela ne changera rien, il n'y a pas de "pénalité" pour ça).
Dans l'ensemble, GoogleBot va analyser s'il y a un réel gain à explorer un site en HTTP/2 (quand cela est possible). Si oui, alors il profite du protocole pour économiser des ressources. Dans le cas contraire, il crawlera à l'ancienne, comme toujours. L'idée est surtout de réduire le nombre de ressources sur la masse des sites web crawlés quotidiennement, et donc d'être à la fois plus performant, plus rentable et plus écologique (réduction du crawl budget sous-entendu...). Google devrait envoyer des messages via la Google Search Console pour les sites éligibles à l'exploration avec HTTP/2, ou cela pourrait se vérifier dans le fichier apache.log des serveurs Apache.
Dernier élément à connaître, et non des moindres, être crawlé en HTTP/2 n'apporte absolument aucun avantage en termes de SEO. Il s'agit bien d'amélioration côté performances et ressources pour GoogleBot (réduire les temps de réponses, le nombre de connexions, compression des headers...), mais cela ne change foncièrement rien en termes d'indexation, et donc de positionnement. Ne vous arrachez pas les cheveux pour passer absolument en HTTP/2 pour du SEO ! ;-)