Une conversation entre John Mueller et des twittos a permis de mieux comprendre comment Google gère les pages d'erreur 404 dans son processus de crawl. Selon le porte-parole de Google, le crawl budget n'est pas directement affecté par les 404 car elles ne sont lues qu'en fin de crawl et qu'elles sont tout-à-fait normales pour un site web.
Les échanges entre les webmasters et John Mueller sont intéressants et ont duré suffisamment pour éclaircir certains points. En gros, Google estime que tous les sites ont des pages d'erreur 404 et que cela est normal dans bien des cas. D'ailleurs, John Mueller en a profité pour rappeler un post sur Google+ datant de 2013 et évoquant ces points. En effet, par deux fois le communiqué officiel évoque le fait que beaucoup de 404 sont normales et ne demandent pas d'actions particulières de la part des webmasters. C'est donc à GoogleBot et quelques algorithmes de gérer les crawl budget et de prioriser les pages à visiter, en envoyant les pages d'erreur 404 en fin d'exercice.
All good sites have 404s :) [John Mueller, 14/05/2017]
Si on résume les faits, GoogleBot arrive à distinguer les pages d'erreur 404 gênantes des autres, mais dans bien des cas, les webmasters n'ont pas à s'inquiéter ni à mener des actions dans le site pour éviter cela. John Mueller a notamment évoqué les erreurs 404 issues de problème de DNS, qui ne sont donc pas directement liées à la qualité du site ou autre. Il a juste indiqué (comme dans le post de 2013) que les webmasters doivent surtout surveiller si leurs fichiers Sitemap.xml ou leurs liens internes ne présentent pas de liens morts et erronés. Tout ce qui est inhérent au site web doit être surveillé et corrigé afin d'améliorer l'indexation, mais les erreurs 404 qui sortent de ce contexte sont normales aux yeux du moteur, d'où sa gestion automatique pour limiter le crawl budget.
Enfin, il a évoqué les retours de pages 404 en 410 quand cela semble nécessaire. Selon John Mueller, il ne sert à rien de procéder à des redirections ou de renvoyant des codes 410 si les pages ciblées sont déjà désindexées par Google. Nous pouvons donc en déduire que l'intérêt des 410 se résume à des pages encore dans l'index du moteur de recherche qui sont mal interprétées par le robot.
Ce qui est plus intéressant, c'est l'évocation de "Fred" mais surtout des modèles de prédiction. En effet, le porte-parole de Google indique que Google s'appuie sur son historique de crawl et sur des modèles de prédiction pour savoir à l'avance si une page risque d'être supprimée ou non. Ainsi, GoogleBot tente de prédire l'avenir pour limiter le crawl budget. Même s'il arrive que dans le doute, le moteur préfère aller visiter certaines URL pour s'en assurer, cela montre que la mesure du crawl budget est un travail de fourmi qui analyse pléthores de critères...