Si les référenceurs connaissent bien la notion de duplicate content, celle de near duplicate content est parfois plus douteuse à leurs yeux. Dans les faits, tout est une question de nuance, et Gary Illyes a tenu à éclaircir ce point sur Twitter afin d'éviter toute ambiguïté.
Rappelons tout d'abord que Google ne pénalise pas directement le duplicate content comme cela a souvent été dit, c'est plutôt une relation de cause à effet. Le fait d'avoir des contenus en doublon permet moins aux pages de se positionner à cause de la perte de valeur des contenus pour le moteur, elles sont alors moins compétitives par rapport à des concurrents dans bien des cas et perdent souvent des places dans les SERP. Google n'est donc pas directement responsable de cela, mais il vaut mieux s'en prévaloir pour éviter tout problème...
Si les contenus dupliqués existent, le pire fléau est sûrement celui du near duplicate content, à savoir des contenus "presque en double". En effet, autant il est assez simple de trouver des duplications de contenu avec des outils comme Copyscape ou comme l'excellent Kill Duplicate, autant il est plus compliqué de remonter jusqu'à des sites qui copient des morceaux de site ou paraphrasent juste un peu les textes originaux. Gary Illyes à décrit le near duplicate content, sous deux formes proches :
- contenus légèrement modifiés voire paraphrasés pour sembler "nouveau" ;
- contenus recopiés entièrement, mais au sein d'une structure différente.
De nombreux sites se font un malin plaisir à recopier mot pour mot des parties de contenu ou à les modifier légèrement pour publier des informations qui ne leur appartiennent pas. C'est d'autant plus courant quand on est blogueur ou détenteur d'un site d'information, et la chasse aux plagieurs devient bien plus complexe avec du near duplicate content, alors soyez vigilants...
Voici un exemple pour mon ancienne version de site pro, qui était "presque dupliqué" par une pseudo-agence africaine.