Gary Illyes a évoqué lors du PubCon de Las Vegas la gestion des contenus à propos de Google. Ces premières déclarations incitaient les webmasters à ne pas supprimer les pages qui étaient touchées par Google Panda, il est allé un peu plus loin par la suite en précisant que les mauvais contenus devaient être désindexés (via un noindex notamment) plutôt que rediriger vers des pages 404.
Selon lui, les contenus de très faible taille ou ceux de mauvaise qualité risquent d'être touchés et "sanctionnés" par Google Panda, et il arrive donc fréquemment que les webmasters ne souhaitent plus les afficher sur le web afin d'éviter des lourdes chutes dans les SERP. Cela se tient, mais la méthode utilisée n'est pas toujours la bonne...
Généralement, les webmasters suppriment la page web directement ou génèrent par d'autres moyens des erreurs 404. Dans tous les cas, la page devient inaccessible et les contenus disparaissent des SERP de Google après de longs mois d'attente. Le problème des erreurs 404 est double :
- Il est très simple de créer des erreurs "soft 404", c'est-à-dire des erreurs 404 qui sont notées comme des codes 200 par des serveurs mal paramétrés ou par des méthodes utilisées peu fiables (notamment avec certaines redirections, avec cURL, etc.). Dans ce cas, Google croit recevoir une page valide et encore en vie alors qu'il s'agit bien d'une erreur 404.
- La suppression pure et dure de pages web nuit parfois à la navigation générale sur le web. En effet, il se peut que des liens pointent vers ces pages, transmettent du PageRank, etc. L'idéal est donc de faire une redirection vers la page d'accueil ou une page à thématique approchante pour récupérer le poids des anciennes pages (sauf éventuellement si la page d'origine a pris une pénalité bien entendu...).
Gary Illyes a expliqué que le fait de générer des erreurs 404 ne permet pas à Google d'interpréter rapidement les souhaits de désindexation. En revanche, si vous mettez la page en noindex, via un disallow dans un robots.txt et/ou une balise meta "robots" en noindex,nofollow, le moteur de recherche comprend immédiatement la volonté du webmaster.
D'autres précisions ont été apportées pour accélérer encore davantage la désindexation des contenus. Pour ce faire, il est fortement recommandé d'indiquer dans un fichier Sitemap XML les URL des pages à désindexer. En effet, si vous placez un noindex, nofollow dans une balise meta "robots" dans les pages à supprimer de l'index de Google, le fait de les ajouter dans un fichier Sitemap va accélérer le passage des robots, et donc la prise en compte de la désindexation désirée. Il est également possible d'utiliser la Google Search Console pour désindexer des pages. Bien plus efficace que des erreurs 404 en tout cas !
Ces méthodes permettent de désindexer les pages plus rapidement (ou éventuellement les rediriger), mais aussi d'éviter d'éventuelles soft 404, des liens morts sur la Toile, de la perte de PageRank, etc. Au fond, cela va bien dans le sens des déclarations concernant la non suppression des pages pour éviter Panda que Gary Illyes et John Mueller ont répété plusieurs fois. Nous serions tentés de les croire pour une fois... :D