Google déconseille l’usage de la directive noindex dans les fichiers robots.txt

Mathieu Chartier 9 septembre 2015 à 22:41 SEO 0 commentaire

Le tweetos Max Prin (@maxxeight) a posté un tweet le 1er septembre à propos de la directive noindex admise dans les fichiers robots.txt. Cette directive non standard fonctionne effectivement depuis plusieurs années et permet de bloquer le crawl et l'indexation des pages ciblées, contrairement à la directive standard disallow qui ne fait que bloquer l'accès aux ressources avant le crawl.

Max Prin a indiqué sur Twitter avoir testé le directive noindex en remplacement de disallow, présentant cette technique comme fonctionnelle et idéale pour répondre à des besoins de désindexation.

@maxxeight @google @DeepCrawl I'd really avoid using the noindex there. — John Mueller (@JohnMu) 1 Septembre 2015

L'auteur ne s'attendait peut-être pas à une réponse mais c'est John Mueller en personne qui lui a répondu rapidement sur le réseau social, lui indiquant mot pour mot qu'il vaut mieux éviter d'utiliser la directive noindex dans un fichier robots.txt.

Rappelons que les fichiers robots.txt standards disposent de rares directives, à savoir :

user-agent pour indiquer le ou les robots ciblés par le blocage ou l'autorisation du crawl (on met généralement le signe "*" pour l'appliquer à tous les robots) ;
allow pour autoriser le crawl (par défaut donc inutile en général) ;
disallow pour bloquer le crawl des pages (et donc favoriser la désindexation ou la non-indexation des documents)
sitemap pour indiquer une URL pointant vers un fichier sitemap.xml

Toutes les autres directives sont en réalité "propriétaires" ou non standards. Certes, noindex fonctionne, bien que John Mueller déconseille son utilisation, mais cela reste une directive normalement non tolérée... Google conseille d'éviter l'usage de la directive noindex dans un robots.txt