Google préfère le noindex aux 404 pour supprimer les mauvais contenus

Mathieu Chartier SEO 6 commentaires

Désindexation de contenus avec Google

Gary Illyes a évoqué lors du PubCon de Las Vegas la gestion des contenus à propos de Google. Ces premières déclarations incitaient les webmasters à ne pas supprimer les pages qui étaient touchées par Google Panda, il est allé un peu plus loin par la suite en précisant que les mauvais contenus devaient être désindexés (via un noindex notamment) plutôt que rediriger vers des pages 404.

Selon lui, les contenus de très faible taille ou ceux de mauvaise qualité risquent d'être touchés et "sanctionnés" par Google Panda, et il arrive donc fréquemment que les webmasters ne souhaitent plus les afficher sur le web afin d'éviter des lourdes chutes dans les SERP. Cela se tient, mais la méthode utilisée n'est pas toujours la bonne...

Généralement, les webmasters suppriment la page web directement ou génèrent par d'autres moyens des erreurs 404. Dans tous les cas, la page devient inaccessible et les contenus disparaissent des SERP de Google après de longs mois d'attente. Le problème des erreurs 404 est double :

  1. Il est très simple de créer des erreurs "soft 404", c'est-à-dire des erreurs 404 qui sont notées comme des codes 200 par des serveurs mal paramétrés ou par des méthodes utilisées peu fiables (notamment avec certaines redirections, avec cURL, etc.). Dans ce cas, Google croit recevoir une page valide et encore en vie alors qu'il s'agit bien d'une erreur 404.
  2. La suppression pure et dure de pages web nuit parfois à la navigation générale sur le web. En effet, il se peut que des liens pointent vers ces pages, transmettent du PageRank, etc. L'idéal est donc de faire une redirection vers la page d'accueil ou une page à thématique approchante pour récupérer le poids des anciennes pages (sauf éventuellement si la page d'origine a pris une pénalité bien entendu...).

Gary Illyes a expliqué que le fait de générer des erreurs 404 ne permet pas à Google d'interpréter rapidement les souhaits de désindexation. En revanche, si vous mettez la page en noindex, via un disallow dans un robots.txt et/ou une balise meta "robots" en noindex,nofollow, le moteur de recherche comprend immédiatement la volonté du webmaster.

D'autres précisions ont été apportées pour accélérer encore davantage la désindexation des contenus. Pour ce faire, il est fortement recommandé d'indiquer dans un fichier Sitemap XML les URL des pages à désindexer. En effet, si vous placez un noindex, nofollow dans une balise meta "robots" dans les pages à supprimer de l'index de Google, le fait de les ajouter dans un fichier Sitemap va accélérer le passage des robots, et donc la prise en compte de la désindexation désirée. Il est également possible d'utiliser la Google Search Console pour désindexer des pages. Bien plus efficace que des erreurs 404 en tout cas !

Ces méthodes permettent de désindexer les pages plus rapidement (ou éventuellement les rediriger), mais aussi d'éviter d'éventuelles soft 404, des liens morts sur la Toile, de la perte de PageRank, etc. Au fond, cela va bien dans le sens des déclarations concernant la non suppression des pages pour éviter Panda que Gary Illyes et John Mueller ont répété plusieurs fois. Nous serions tentés de les croire pour une fois... :D

6 commentaires

  • Attention, il ne faut surtout pas modifier le fichier robots.txt, cela va bloquer le crawler Google et ne lui permettra donc pas de voir que vous avez passé la page en "no index".

    • Le robots.txt ne bloque pas tout directement, et je parle de toutes les possibilités pour bloquer sur le long terme ici. Le robots.txt peut être utilisé dans un second temps lorsque la désindexation via noindex est déjà prise en compte. J'aurais peut-être dû être plus précis en effet !

  • Sam dit :

    Article intéressant mais je me pose toujours la question suivant:

    J'ai fais la demande de suppression d'une page reprenant mes données personnelles, afin qu'elle soit supprimée de l'index Google. Or le webmaster a fait une redirection de la page en question vers la home page du site.

    Depuis, l'URL de la page problématique est toujours indexée dans Google (et dans la partie description des résultats on retrouve toujours mes données) et bien sûr si on clique le lien on aboutit sur la page d'accueil. C'est une situation qui ne me convient guère. Pensez vous qu'avec le temps cette page va disparaître des résultats ? Ou bien le webmaster doit-il faire un no-index de la page plutot qu'une redirection ?
    Merci à vous !

    • Il y a plusieurs éléments à prendre en compte dans votre cas. D'une part, la gestion du droit à l'oubli de Google pour supprimer la page avec vos données de l'index. D'autre part la désindexation pure et simple de la page web redirigée. Si la première demande est approuvée, alors la page disparaîtra des résultats "facilement". Si tel n'est pas le cas, alors il faudra un certain temps pour que la page disparaisse de l'index (il faut compter plusieurs mois en moyenne).

  • f4b1 dit :

    Bonjour, j'ai passé une page en noindex,nofollow mais après quelques jours elle apparait toujours sur l'index de Google, cela peut être long pour que ce soit pris en compte ? (Presque une semaine au moment de ce commentaire), Cordialement

    • Bonjour,
      Il faut souvent pas mal de temps avant que Google prenne en compte cela. Parfois même, il estime la page trop pertinente pour la retirer, malgré que l'on lui précise de ne pas l'indexer. Idéalement, il vaut mieux créer un fichier robots.txt pour faire ça, c'est souvent un peu plus efficace. Mais quoi qu'il advienne, il faut être (très...) patient. :(

  • Déposer un commentaire

    Répondre à f4b1 Annuler la réponse

    L'adresse de messagerie ne sera pas publiée.* Champs obligatoires