Comment Google lutte contre le spamdexing ? (brevet officiel)

Mathieu Chartier Référencement 7 commentaires

Après avoir récemment étudié un brevet concernant les fichiers Sitemaps XML, me voici en pleine lecture instructive à propos du spamdexing. En effet, la sur-optimisation des contenus n'est pas très appréciée par Google, c'est tout du moins ce que nous affirmons tous sans jamais vraiment être allé vérifier à la source (si ?).

Nous savons tous que la frontière entre le white hat SEO et le black hat SEO est infime, il ne faut pas grand chose pour passer du "côté obscur" selon Google, mais notre erreur est peut-être trop souvent de ne pas assez bien connaître les limites du référencement et des optimisations in-page. Si nous apprenons à les maîtriser de A à Z, nous pouvons dire ce qu'il ne faut absolument pas faire et ce qui en revanche est possible sans que GoogleBot ou un autre robot vienne nous titiller...

Matt Cutts, en charge de l'équipe web-spam de Google, a eu la riche idée de déposer un brevet dès le 4 décembre 2003 pour expliquer comment lutter contre le spamdexing. Ce brevet explicatif a été publié seulement le 5 mars 2013 et il est peut-être temps de le décortiquer pour vous...

Rappels sur le spamdexing et les sur-optimisations

Le spamdexing, et son cousin un peu plus éloigné le cloaking, sont des techniques de triche qui permettent de dissimuler des contenus dans un objectif d'optimiser des pages pour le référencement et surtout le positionnement dans les SERP.

Le cloaking est un procédé plus ou moins technique, souvent basé sur Javascript, qui permet de détourner les robots d'indexation et notamment de leur proposer d'autres contenus que ceux réellement afficher pour les internautes. Le spamdexing, ou référencement abusif, est tout aussi vicieux puisque le but est de cacher des contenus et des liens dans les pages web pour que les utilisateurs ne les voient pas mais pour que les robots les lisent et les indexent...

Dans le brevet déposé par Google, Matts Cutts et Fritz Schneider décrivent quelques techniques connues de spamdexing :

  • texte de même couleur que le fond (texte blanc sur fond blanc en général) ;
  • texte placé avec z-index sur une image dont le fond est de même couleur ;
  • texte écrit en minuscule (taille de police d'un seul pixel par exemple) ;
  • lien dissimulé derrière une image de 1px x 1px (GIF transparent en général) ;
  • lien (avec ou sans image) placé derrière un bloc de contenus disposé grâce à un z-index.

Ce ne sont que des exemples mais comme ils sont notés dans le brevet, nous devons les prendre en considération car cela signifie que ces techniques sont détectées et connues (même si sur ce point, nous n'en doutions pas). Le document précise qu'il est possible d'utiliser CSS voire Javascript pour faire ce type de procédé, mais une fois encore, cela nous semble logique.

spamdexing-google-brevet

Comment Google lutte contre les "tricheurs" et les black hat SEO ?

Le brevet décrit comment Google combat le spamdexing et cela nous ouvrira peut-être des portes pour l'avenir si nous voyons que le procédé contient des failles. Tout d'abord, sachez que Google précise que la technique peut être effectuée automatiquement lors des échanges client-serveur (robot) ou par le biais d'humains si nécessaire, il est indiqué que tout se fait lors du processus d'indexation ou en cas de délation si quelqu'un dépose une plainte contre un site (ce qui peut expliquer pourquoi des humains interviennent dans ce cas).

Pour résumer, Google reçoit des documents hypertextes en HTML puis décortique entièrement l'arbre DOM des pages (il déstructure entièrement les pages web selon l'organisation interne des contenus, d'où l'importance d'un code HTML structuré en général...). Dans cette représentation structurelle, Google notifie pour chaque élément de l'arbre sa couleur, sa "couche" de visibilité (niveau de z-index), sa taille, son positionnement, le type de balise, etc.

Grâce à ce procédé technique, Google sait "lire" quelques détails concernant les éléments qui composent les pages HTML, et donc les utilisateurs qui trichent. Il suffit au robot de déterminer à quel endroit est placé un lien dans l'arbre pour savoir s'il est dissimulé derrière un bloc ou non...

lutte-anti-spamdexing-google-brevet

Ce qui est intéressant également, c'est de voir que le moteur est capable de savoir si une information est contenue dans la fenêtre du navigateur ou non, et si elle est cachée ou non, ce qui signifie qu'il faut absolument éviter certaines techniques CSS :

  • text-indent: -9999px; par exemple ;
  • position:relative; avec left:-9999px; par exemple ;
  • visibility:hidden.

Quelques précisions sur le spamdexing vu par Google

Pour ceux qui doutaient encore que Google puisse lire du CSS, nous en avons ici la preuve, même si cela ne signifie pas que toutes les propriétés sont lues et comprises, notamment lorsque le fichier CSS est externalisé (l'exemple du brevet montre du CSS intégré).

En revanche, le moteur a la faculté de lire tous les types de couleur, que ce soit en hexadécimal avec #RRVVBB, en nom de couleur ("blue" par exemple), mais aussi avec les fonctions HSL() ou RVB(). Il compare les couleurs selon les couches de l'arbre DOM déstructuré pour savoir s'il y a triche ou non. Google ne fait que déterminer si les couleurs sont identiques, il est capable également de comparer des plages de couleur pour attraper les petits malins qui voudraient jouer avec les nuances. Le brevet donne l'exemple d'un fond avec valeur #000000 (noir pur) et un texte caché avec un code couleur #050505. Dans ce cas, le moteur sait que les couleurs sont similaires...

Matts Cutts et Fritz Schneider précisent également le cas des textes réduits en taille minuscule. En fait, le robot analyse la balise qui contient le texte. Dans le brevet, ils prennent l'exemple de la balise <h2> qui doit avoir une certaine taille de texte, mais si cette dernière est diminuée à 1px, alors elle est irrationnelle et indique donc une triche. Cela sous-entend que nous devons faire attention lorsque nous déterminons nos styles, il nous arrive parfois de mettre une taille plus grosse à un h3 qu'à un h2 par exemple, mais cela pourrait être considéré comme de la triche si la différence de taille est importante...

Sanctions ou pas envers le spamdexing ?

C'est là que le brevet s'avère intéressant. En effet, il n'est pas mentionné expressément que le moteur pénalise les pages web qui contiennent du spamdexing comme l'indique la phrase suivante : "In this way, the ranking of search results may take into account attempts to trick the search engine into ranking results more highly (eg, by ignoring text that the user would not see when analyzing the content of the document)".

En d'autres termes, les auteurs précisent que les pages sont classées en ignorant les contenus dissimulées. De ce fait, la page n'est pas sanctionnée à proprement parler mais uniquement "nettoyée" des éléments infestés, elle perd donc de la valeur à cause de cela mais son positionnement n'est affecté que par ce point précis, et non par une pénalité en bonne et due forme ! En réalité, le document sera pénalisé uniquement s'il existe des amorces de cloaking ou des abus nets pour duper les robots...

7 commentaires

  • Pour info, nous avons lancé notre propre étude, qui serait beaucoup actuelle que celle là
    http://www.laurentbourrelly.com/blog/1443.php (les dons sont toujours ouverts)

    • Je ne sais pas si l'étude est "plus actuelle" car je parle essentiellement du brevet ici qui donne les règles de base, mais c'est super intéressant en revanche, merci pour le partage !

  • Thomas Cubel dit :

    Bonsoir Mathieu,

    Mon avis est un petit peu mitigé sur ce billet.
    D'un côté, je suis d'accord avec ce qui a été dit, mais d'un autre, je me dis que ce brevet est tout de même vieux maintenant. Doit-on essayer d'exploiter ce qui est marqué ? Je ne sais pas.

    Ton article, ta définition du spamdexing est vraiment bien, ce que tu as trouvé est encore une fois une découverte que personne n'avais remarqué et remonté, mais quand je vois à quelle vitesse le web file, je me dit qu'il y a sûrement des choses qui ont changé depuis. De plus, c'est un brevet et bon dieu que ce que je pense d'eux est moche.

    Pour aller au fond de ma pensée, je pense que les brevets sont seulement là pour protéger ce qui est, sera ou pourra être utilisé/vu, que ce soit par le public ou un concurrent.

    En clair, je pense que Google et les autres entreprises en général nous montrent ce qu'ils veulent bien nous montrer sur ces plateformes.
    Google nous cache des choses et ce n'est pas prêt de changer, on en est tous convaincus.

    Pour moi, il ne faut pas s'attendre à voir fleurir des brevets pour chaque fonctionnalité du moteur. Ce que je veux dire, c'est que ça ne leur sert à rien de protéger quelque chose construit en interne, qui ne sera probablement jamais découvert. Qu'un autre mec fasse une découverte similaire à un truc de chez Google... Ce n'est pas très important pour le géant de Mountain View. Je dirais même qu'il s'en fichera puisque c'est privé et bien gardé. Le concurrent ira beau dire que Google utilise le même procédé, personne n'ira vérifier et personne ne saura si c'est vrai (sauf Google dans ce cas ci).

    Même si je m'éloigne, je souhaitai faire passer que derrière y a peut-être un truc complètement différent... Les brevets, les communiqués de Matt Cutts/Google, c'est bien tout beau tout joli ces trucs... Mais c'est de la communication, et surtout une stratégie. On l'a bien vu pour le guest blogging la semaine dernière.

    Après, comme l'a dit Laurent Bourrelly, l'étude webspam va nous donner beaucoup d'informations. On va avoir un peu plus de choses en main prochainement. Peut-être que l'on trouvera des choses vraiment surprenantes (et je n'en doute pas).

    Enfin, je voulais finir sur un point dont tu as parlé qui est très intéressant, le CSS chez Google.
    Sache que je pense comme toi. Le CSS a de grandes chances d'être scanné depuis longtemps.
    Je dirais même plus, je suis quasiment convaincu que le moteur sait relativement bien utiliser, identifier, évaluer un design, des couleurs, etc... Et ce, depuis pas mal de temps ;)

    Voilà, c'était la fin du roman comme à mon habitude. En tous cas, ton article m'a bien fait réagir et me plait beaucoup ! Merci et bravo pour toutes ces découvertes ! Continue !

    • Je suis moi-même partagé avec mon propre billet.^^
      Plus sérieusement, le brevet est ancien mais n'a été déposé (et donc confirmé !) qu'en mars 2013, c'est pour cela que j'en parle... Certes, certaines informations sont vieillissantes mais sont un bon point de départ.

      En général, c'est cher de déposer un brevet (enfin pour Google, ça doit aller... :D) et cela permet de décrire des systèmes ou des concepts pour éviter que d'autres "piquent" l'idée. Par conséquence, nous ne pouvons jamais assurer qu'un brevet sera appliqué mais aussi qu'une idée non brevetée ne soit pas appliquée, c'est là tout le coeur du problème. En revanche, si je devais payer des brevets pour ne rien en faire, ça me paraîtrait légèrement "bizarre" (sauf si on croit dans la théorie du complot...). Je pars donc du principe que les brevets sont de très bonnes sources (trop peu exploitées) pour obtenir des informations de base sur des éléments importants (j'en ai d'ailleurs un ou deux sous le coudes pour bientôt...^^), j'ai plus confiance en eux que dans certains propos de blogueurs ou de Matt Cutts (sans faire offense à toutes ces sources bien entendu !).

      Concernant le spamdexing, j'ai surtout apprécié le fait de lire des descriptions de cas réels avec des descriptions des méthodes de détection. J'ai à peu près tout entendu sur le spamdexing et même sur les pénalités qui allaient avec, mais en réalité, je trouve la conclusion du brevet beaucoup plus logique et réaliste. Alors peut-être suis-je naïf, mais selon moi, il n'est pas anormal que le spamdexing soit simplement ignoré dans la plupart des cas simples, seuls les tricheurs professionnels sont punis. En effet, si je fais par inadvertance un mauvais choix de couleur dans l'élaboration de mon site, ce n'est pas nécessairement pour duper Google, ça peut parfois être une erreur, ou une faute de goût. :D

      J'attends également le résultat de l'étude webspam partagée par Laurent Bourrelly, cela confortera ce que nous pensions ou montrera de nouvelles choses intéressantes. Le suspense est à son comble ! :D

  • Ta démarche est aussi précieuse que celle d'un historien du numérique doublée d'une approche toute autant juridique que malicieusement pragmatique.
    Autrement dit, tu décryptes l'analyse stratégique et comportementale d'un monstre algorithmique d'une intelligence absolue, capable de rançonner des systèmes et des états, y-compris l'irréductible Gaule et son Montebourg qui sonnait le tocsin, pas plus tard qu'aujourd'hui, en réclamant pas moins que l'expulsion de l'hydre GG et ses apocalyptiques brevets.

    • Merci, quel commentaire ma foi, quelles images ! J'essaie en effet d'avoir le côté archéologue du SEO, ça colle à mon profil d'ancien archéologue, mais après, je n'ai pas la prétention d'être un super "décrypteur", je le fais surtout pour aider ceux qui n'aiment pas fouiller dans les archives... :D

  • merci, c'est un bon article, le spamdexing est un sujet plus important

  • Déposer un commentaire

    L'adresse de messagerie ne sera pas publiée.* Champs obligatoires