John Mueller déconseille de générer des robots.txt dynamiquement

Mathieu Chartier 30 octobre 2015 à 00:05 SEO 0 commentaire

Googlebot et l'indexation

John Mueller a précisé dans un échange d'un forum de webmasters qu'il était déconseillé de générer des fichiers robots.txt de manière dynamique car cela pouvait troubler les robots d'indexation mais aussi influencer négativement la prise en compte des informations inscrites à l'intérieur.

Son échange a également permis de donner quelques informations intéressantes au sujet du crawl des fichiers robots.txt. Voici la traduction complète de son post :

La génération dynamique d'un sitemap est une bonne chose. C'est une bonne façon de mettre à jour automatiquement vos plans de site.

La génération dynamique du robots.txt (pour un même hôte ! Faire ceci pour des hôtes séparés correspond essentiellement à un robots.txt normal pour chacun d'entre eux) causerait probablement des problèmes : il n'est pas visité chaque fois qu'une URL du site est crawlée, donc il peut arriver que la "mauvaise" version soit mise en cache. Par exemple, si vous générez votre robots.txt bloquant le crawl pendant les heures ouvrables, alors il est possible qu'il soit mis en cache et cela signifie que pendant un jour, rien n'est crawlé (ou alternativement, qu'il soit mis en cache pendant que le crawl est autorisé). Google crawle le fichier robots.txt environ une fois par jour pour la plupart des sites, par exemple.

Je ne vous cache pas que l'exemple cité par John Mueller est un peu caricatural puisqu'il évoque le cas d'un robots.txt qui génèrerait dynamiquement la règle "disallow: /" qui bloque le crawl des robots. Dans ce cas, effectivement, il faudrait attendre une journée supplémentaire pour que cette règle, mise en cache le jour précédent, soit annulée, et permette à nouveau le crawl des robots.

Dans les faits, je ne vois pas trop quel est le problème avec une gestion dynamique d'un fichier robots.txt, sachant que son usage est encore assez limité pour une grande majorité de sites web. Hormis si le générateur créé des règles bloquantes, ou des règles importantes de désindexation pour le site, à des heures correspondant au crawl (sachant que ça change souvent, difficile de viser juste...), je ne vois pas trop le mal que cela peut faire.

J'ai relayé l'information pour être totalement transparent avec vous, mais si je n'ai qu'un conseil à vous donner, c'est surtout de faire attention à ne pas appliquer de règles bloquantes dans le robots.txt, que ce soit manuellement ou dynamiquement. Le risque est donc uniquement de bloquer le crawl (pendant environ 24 heures si la règle bloquante est levée le lendemain), c'est "tout".

En définitive, la seule information qui me semble intéressante, c'est le fait de rappeler que le robots.txt n'est pas lu pour chaque URL et qu'une fois par jour environ pour tous les sites. Googlebot ne perd donc pas de temps de manière répétée à lire le fichier robots.txt afin de s'économiser.