Après avoir récemment étudié un brevet concernant les fichiers Sitemaps XML, me voici en pleine lecture instructive à propos du spamdexing. En effet, la sur-optimisation des contenus n'est pas très appréciée par Google, c'est tout du moins ce que nous affirmons tous sans jamais vraiment être allé vérifier à la source (si ?).
Nous savons tous que la frontière entre le white hat SEO et le black hat SEO est infime, il ne faut pas grand chose pour passer du "côté obscur" selon Google, mais notre erreur est peut-être trop souvent de ne pas assez bien connaître les limites du référencement et des optimisations in-page. Si nous apprenons à les maîtriser de A à Z, nous pouvons dire ce qu'il ne faut absolument pas faire et ce qui en revanche est possible sans que GoogleBot ou un autre robot vienne nous titiller...
Matt Cutts, en charge de l'équipe web-spam de Google, a eu la riche idée de déposer un brevet dès le 4 décembre 2003 pour expliquer comment lutter contre le spamdexing. Ce brevet explicatif a été publié seulement le 5 mars 2013 et il est peut-être temps de le décortiquer pour vous...
Rappels sur le spamdexing et les sur-optimisations
Le spamdexing, et son cousin un peu plus éloigné le cloaking, sont des techniques de triche qui permettent de dissimuler des contenus dans un objectif d'optimiser des pages pour le référencement et surtout le positionnement dans les SERP.
Le cloaking est un procédé plus ou moins technique, souvent basé sur Javascript, qui permet de détourner les robots d'indexation et notamment de leur proposer d'autres contenus que ceux réellement afficher pour les internautes. Le spamdexing, ou référencement abusif, est tout aussi vicieux puisque le but est de cacher des contenus et des liens dans les pages web pour que les utilisateurs ne les voient pas mais pour que les robots les lisent et les indexent...
Dans le brevet déposé par Google, Matts Cutts et Fritz Schneider décrivent quelques techniques connues de spamdexing :
- texte de même couleur que le fond (texte blanc sur fond blanc en général) ;
- texte placé avec z-index sur une image dont le fond est de même couleur ;
- texte écrit en minuscule (taille de police d'un seul pixel par exemple) ;
- lien dissimulé derrière une image de 1px x 1px (GIF transparent en général) ;
- lien (avec ou sans image) placé derrière un bloc de contenus disposé grâce à un z-index.
Ce ne sont que des exemples mais comme ils sont notés dans le brevet, nous devons les prendre en considération car cela signifie que ces techniques sont détectées et connues (même si sur ce point, nous n'en doutions pas). Le document précise qu'il est possible d'utiliser CSS voire Javascript pour faire ce type de procédé, mais une fois encore, cela nous semble logique.
Comment Google lutte contre les "tricheurs" et les black hat SEO ?
Le brevet décrit comment Google combat le spamdexing et cela nous ouvrira peut-être des portes pour l'avenir si nous voyons que le procédé contient des failles. Tout d'abord, sachez que Google précise que la technique peut être effectuée automatiquement lors des échanges client-serveur (robot) ou par le biais d'humains si nécessaire, il est indiqué que tout se fait lors du processus d'indexation ou en cas de délation si quelqu'un dépose une plainte contre un site (ce qui peut expliquer pourquoi des humains interviennent dans ce cas).
Pour résumer, Google reçoit des documents hypertextes en HTML puis décortique entièrement l'arbre DOM des pages (il déstructure entièrement les pages web selon l'organisation interne des contenus, d'où l'importance d'un code HTML structuré en général...). Dans cette représentation structurelle, Google notifie pour chaque élément de l'arbre sa couleur, sa "couche" de visibilité (niveau de z-index), sa taille, son positionnement, le type de balise, etc.
Grâce à ce procédé technique, Google sait "lire" quelques détails concernant les éléments qui composent les pages HTML, et donc les utilisateurs qui trichent. Il suffit au robot de déterminer à quel endroit est placé un lien dans l'arbre pour savoir s'il est dissimulé derrière un bloc ou non...
Ce qui est intéressant également, c'est de voir que le moteur est capable de savoir si une information est contenue dans la fenêtre du navigateur ou non, et si elle est cachée ou non, ce qui signifie qu'il faut absolument éviter certaines techniques CSS :
- text-indent: -9999px; par exemple ;
- position:relative; avec left:-9999px; par exemple ;
- visibility:hidden.
Quelques précisions sur le spamdexing vu par Google
Pour ceux qui doutaient encore que Google puisse lire du CSS, nous en avons ici la preuve, même si cela ne signifie pas que toutes les propriétés sont lues et comprises, notamment lorsque le fichier CSS est externalisé (l'exemple du brevet montre du CSS intégré).
En revanche, le moteur a la faculté de lire tous les types de couleur, que ce soit en hexadécimal avec #RRVVBB, en nom de couleur ("blue" par exemple), mais aussi avec les fonctions HSL() ou RVB(). Il compare les couleurs selon les couches de l'arbre DOM déstructuré pour savoir s'il y a triche ou non. Google ne fait que déterminer si les couleurs sont identiques, il est capable également de comparer des plages de couleur pour attraper les petits malins qui voudraient jouer avec les nuances. Le brevet donne l'exemple d'un fond avec valeur #000000 (noir pur) et un texte caché avec un code couleur #050505. Dans ce cas, le moteur sait que les couleurs sont similaires...
Matts Cutts et Fritz Schneider précisent également le cas des textes réduits en taille minuscule. En fait, le robot analyse la balise qui contient le texte. Dans le brevet, ils prennent l'exemple de la balise <h2> qui doit avoir une certaine taille de texte, mais si cette dernière est diminuée à 1px, alors elle est irrationnelle et indique donc une triche. Cela sous-entend que nous devons faire attention lorsque nous déterminons nos styles, il nous arrive parfois de mettre une taille plus grosse à un h3 qu'à un h2 par exemple, mais cela pourrait être considéré comme de la triche si la différence de taille est importante...
Sanctions ou pas envers le spamdexing ?
C'est là que le brevet s'avère intéressant. En effet, il n'est pas mentionné expressément que le moteur pénalise les pages web qui contiennent du spamdexing comme l'indique la phrase suivante : "In this way, the ranking of search results may take into account attempts to trick the search engine into ranking results more highly (eg, by ignoring text that the user would not see when analyzing the content of the document)".
En d'autres termes, les auteurs précisent que les pages sont classées en ignorant les contenus dissimulées. De ce fait, la page n'est pas sanctionnée à proprement parler mais uniquement "nettoyée" des éléments infestés, elle perd donc de la valeur à cause de cela mais son positionnement n'est affecté que par ce point précis, et non par une pénalité en bonne et due forme ! En réalité, le document sera pénalisé uniquement s'il existe des amorces de cloaking ou des abus nets pour duper les robots...