Qu’est-ce que le near duplicate content ?

Mathieu Chartier SEO 2 commentaires

Si les référenceurs connaissent bien la notion de duplicate content, celle de near duplicate content est parfois plus douteuse à leurs yeux. Dans les faits, tout est une question de nuance, et Gary Illyes a tenu à éclaircir ce point sur Twitter afin d'éviter toute ambiguïté.

Rappelons tout d'abord que Google ne pénalise pas directement le duplicate content comme cela a souvent été dit, c'est plutôt une relation de cause à effet. Le fait d'avoir des contenus en doublon permet moins aux pages de se positionner à cause de la perte de valeur des contenus pour le moteur, elles sont alors moins compétitives par rapport à des concurrents dans bien des cas et perdent souvent des places dans les SERP. Google n'est donc pas directement responsable de cela, mais il vaut mieux s'en prévaloir pour éviter tout problème...

Si les contenus dupliqués existent, le pire fléau est sûrement celui du near duplicate content, à savoir des contenus "presque en double". En effet, autant il est assez simple de trouver des duplications de contenu avec des outils comme Copyscape ou comme l'excellent Kill Duplicate, autant il est plus compliqué de remonter jusqu'à des sites qui copient des morceaux de site ou paraphrasent juste un peu les textes originaux. Gary Illyes à décrit le near duplicate content, sous deux formes proches :

  • contenus légèrement modifiés voire paraphrasés pour sembler "nouveau" ;
  • contenus recopiés entièrement, mais au sein d'une structure différente.

De nombreux sites se font un malin plaisir à recopier mot pour mot des parties de contenu ou à les modifier légèrement pour publier des informations qui ne leur appartiennent pas. C'est d'autant plus courant quand on est blogueur ou détenteur d'un site d'information, et la chasse aux plagieurs devient bien plus complexe avec du near duplicate content, alors soyez vigilants...

Voici un exemple pour mon ancienne version de site pro, qui était "presque dupliqué" par une pseudo-agence africaine.

Exemple de contenus dupliqués d'Internet-Formation

2 commentaires

  • Bonjour Mathieu,

    Je suis Valérie, de spin{|}wave. Je voulais tout d'abord vous poser une question : si les algorithmes des moteurs de recherche ont été conçus pour accorder moins d'importance à des contenus en double - ce qui est louable -, n'est-ce pas là une forme de pénalité ? OK, Google ne sort pas le carton rouge mais dans les faits, la page en doublon n'est pas indexée, ou alors elle est indexée dans la section "résultats similaires" (invisible donc, pour ainsi dire) et si elle est indexée, elle se classe moins bien. Si ça ce n'est pas pénalisant, qu'est-ce qui l'est ?

    J'ai également une remarque, concernant KillDuplicate cette fois. C'est justement un outil parfait pour retrouver des pages qui copient seulement une phrase ou un bout de phrase. De par son mode de fonctionnement, basé sur la détection de n-grams communs, KillDuplicate aurait trouvé tout de suite votre plagiat sur orishacom.com, même s'il n'avait copié que la moitié d'une phrase.

    • Bonjour,
      Oui et non, toutes les pages en doublon ne terminent pas forcément dans les résultats similaires, loin de là même. Cela arrive, mais ce n'est pas systématique, surtout dans le cas du near duplicate content justement.
      Ensuite, nous ne parlons pas de "pénalité" à partir du moment où ce n'est pas à cause d'une action volontaire de Google qu'une page régresse dans les classements de SERP. LE duplicate content n'est donc pas pénalisé par Google, personne ne vous fait reculer à cause de ça. En revanche, vous avez raison, cela est bien un frein au développement de la page et à sa visibilité, mais pas directement à cause de Google.
      N.B. : pour l'anecdote, j'ai trouvé le plagiat d'orishacom.com avec un outil gratuit de détection du plagiat. Mais j'aime beaucoup Kill Duplicate et ses créateurs ! ^^

  • Déposer un commentaire

    L'adresse de messagerie ne sera pas publiée.* Champs obligatoires