Skip links

Contenu dupliqué

Définition

Le contenu dupliqué, aussi appelé “duplicate content” en anglais, est un contenu que l’on retrouve en double sur internet. Il s’agit d’un contenu très similaire, voire identique, présent sur plusieurs pages aux URLs différentes. Ces pages peuvent tout aussi bien être d’un même site que de sites différents. De plus, un contenu est considéré comme dupliqué dès lors qu’un simple paragraphe présent sur la page est similaire à un paragraphe d’une autre page. C’est pourquoi il convient d’être très vigilant dans votre rédaction de contenu afin d’éviter tout duplicat.

Contenu dupliqué

Les deux types de contenu dupliqué

Contenu dupliqué en interne, ou intra-site

Comme son nom l’indique, le duplicate content en interne, ou intra-site, correspond à la présence de contenu en double sur plusieurs pages d’un même site. Même si elle est généralement involontaire, la duplication de contenu en interne n’est pas recommandée au risque de se voir pénaliser par les moteurs de recherche et impacter sa notoriété.

Le grand piège du duplicate content intra-site est qu’il est très facile de tomber dedans. Prenons l’exemple d’un site recensant différents Escape Game sur Paris. Il est alors tentant pour ce site de rédiger un seul et même paragraphe expliquant ce qu’est un Escape Game, et d’intégrer ce paragraphe à chacune des pages dédiées à l’un de ces Escape Game. Pourtant, procéder ainsi constituerait un gros handicap pour le référencement de vos pages, et est donc fortement déconseillé.

Le duplicate content intra-site est un problème qui touche notamment les sites de e-commerce à cause des recherches à facettes. En effet, la majorité des sites de e-commerce, afin de faciliter la navigation des utilisateurs, proposent différents filtres à appliquer sur les pages pour affiner une recherche. Or, ce type de recherche améliore certes l’expérience utilisateur, mais provoque également la création de nombreuses pages au contenu très similaire, voire identique, et ainsi la présence de duplicate content sur le site.

En règle générale, votre site est susceptible de présenter du duplicate content pour différentes raisons :

  • Lorsque votre CMS vous permet de créer deux fois la même page, une en version desktop et une en version mobile, mais avec des URLs différentes
  • Lorsque vous recréez une page sur votre site, en oubliant de rediriger l’ancienne vers cette nouvelle
  • Lorsque vous possédez plusieurs noms de domaines pour un seul site
  • Lorsque vous procédez à la refonte de votre site web sans indiquer à Google quel contenu il doit indexer à l’aide de balises “rel=cannonical”

Contenu dupliqué en externe, ou inter-site

Le contenu dupliqué en externe, ou inter-site, correspond quant à lui à la présence de doublons de contenu sur plusieurs sites différents. Ce type de contenu dupliqué est bien plus pénalisé par Google que celui en interne. De plus, il soulève également des problèmes juridiques, avec la question du copyright. Il est donc important de rester particulièrement vigilant concernant ce duplicate content inter-site afin d’éviter à tout prix que votre site n’en possède.

Il est courant de retrouver du contenu très similaire sur différents sites de e-commerce, notamment dans la partie “descriptif du produit”. En effet, différents sites peuvent vendre des produits d’un même fournisseur, et donc avoir les mêmes caractéristiques de produit. Il suffit que plusieurs de ces sites reprennent simplement la description inscrite sur l’étiquette de leur produit pour qu’apparaisse du duplicate content inter-site.

Généralement, Google n’indexera qu’un seul de ces contenus identiques, qu’il choisira selon la popularité ou l’ancienneté des pages. Ce contenu déterminé par Google comme étant l’original est appelé le “contenu canonique”.

Quels sont les dangers d’un contenu dupliqué en SEO ?

Le contenu dupliqué est à la fois pénalisant aux yeux de l’utilisateur et aux yeux de Google. L’expérience utilisateur est affaiblie en raison d’une information identique sur plusieurs résultats de recherche. Du point de vue de Google, la duplication de contenu a un impact négatif sur le référencement d’un site web et sur son trafic.

Tout d’abord, il est risqué pour votre SEO de posséder du duplicate content au sein de votre site. En effet, si votre site possède plusieurs pages dont le contenu est très proche ou identique, ces dernières risquent d’entrer en concurrence. C’est ce que l’on appelle la cannibalisation de mots-clés. Vos pages, en offrant un contenu très similaire, se positionnent alors sur les mêmes mots-clés, et entrent donc en compétition quant à leur positionnement sur ces mots-clés. Par ailleurs, le “keyword stuffing“, une autre tactique discréditée, consiste à surcharger un contenu de mots-clés sans offrir de valeur ajoutée. Elles vont ainsi se pénaliser en s’empêchant mutuellement de se positionner sur les mots-clés ciblés par leur contenu.

En outre, proposer deux pages au contenu dupliqué utilise également votre crawl budget et Google perdra du temps à crawler des pages identiques au lieu de parcourir votre site sur des contenus stratégiques.

Finalement, le contenu dupliqué en externe est également fortement pénalisé par les moteurs de recherche. Par exemple, Google a mis au point un algorithme lui permettant d’identifier les contenus dupliqués et volés : Google Panda. Cet algorithme va venir crawler les pages de votre site afin de vérifier la qualité et l’authenticité de leur contenu. S’il y remarque un nombre trop important de contenu dupliqué, vous risquez de recevoir des pénalités, allant d’une simple baisse de votre position dans les résultats de recherche à une désindexation totale de votre site.

Sites multilingues et contenu dupliqué : qu’en est-il ?

Contrairement à ce que l’on pourrait penser, traduire votre site dans différentes langues n’est pas à l’origine de la création de contenu dupliqué. En effet, Google n’est pas capable d’établir si une page est la traduction d’une autre. De plus, la raison pour laquelle le contenu dupliqué est pénalisé par Google est qu’il est jugé comme peu pertinent pour les utilisateurs car offrant la même réponse qu’un autre site à une recherche. Or, deux pages au même contenu, mais dans deux langues différentes, répondent à des requêtes différentes effectuées dans des zones géographiques éloignées.

Nos solutions pour éviter le contenu dupliqué en interne

Comme pour tout problème, rien de mieux que d’attaquer le contenu dupliqué en interne à la source pour éviter que votre site n’en possède. Voici quelques réflexes à adopter qui vous permettront de ne pas être confronté à ce problème.

N’avoir qu’une URL pour chaque contenu

L’un des premiers réflexes à avoir est de vous assurer que chaque contenu ne possède qu’une et une seule URL. En effet, si votre contenu, à cause de l’application de paramètres d’URL, d’ID, ou autre élément vous permettant de modifier une URL, se retrouve sur plusieurs pages aux URLs différentes, alors Google le considérera comme du duplicate content intra-site. Voici quelques astuces pour éviter de posséder plusieurs URLs pour un seul et même contenu :

  • Limiter voire bannir l’utilisation des ID de sessions dans vos URLs
  • Limiter voire bannir l’utilisation des paramètres d’URL (notamment dans le e-commerce avec les recherche à facettes)
  • Faire attention à construire toutes vos URLs ou bien autour du sous-domaine www, ou bien autour du domaine seulement
  • Faire attention à n’utiliser qu’un seul protocole : http ou https

Éviter le copier/collé

Comme vous pouvez vous en douter, il est impératif d’éviter tout copier/collé d’une page de votre site à une autre. Cherchez à toujours proposer un contenu unique, quand bien même les thèmes abordés par vos pages seraient proches.

Balises canonical : canonicalisation des Urls

Pour ne pas créer de contenu dupliqué sur un site, vous pouvez utiliser la balise canonical, qui permet d’indiquer la page de référence d’un contenu. Si vous ajoutez une balise canonical à l’une de vos pages, vous enverrez le message suivant à Google : “Cette page propose un contenu très similaire à une autre page du site. Il est donc préférable d’indexer la page référente plutôt que celle-ci.” Concrètement, elle permet ainsi de désigner une page comme “maîtresse” sur votre site, et de rediriger Google vers cette page lorsqu’il se trouve sur l’une des pages au contenu similaire. La balise canonical doit être placée dans la partie head de la page de référence et des pages au contenu similaire.

Non-indexation de certains contenus

Si le contenu dupliqué se présente sur des pages jugées non qualitatives ou non stratégiques, vous avez la possibilité de ne pas les indexer. Il vous suffit de placer la balise “noindex” sur vos pages afin d’indiquer à Google de ne pas les indexer, mais tout de même les crawler. Elle se présente comme suit : < meta name = « robot » content = « Noindex, Follow » >. Toutefois cette méthode n’est pas conseillée si vous souhaitez avoir un site qualitatif sur l’ensemble de vos pages.

Nos solutions pour éviter le contenu dupliqué en externe

De même que pour le contenu dupliqué en interne, il existe différentes solutions qui vous permettront de lutter contre le duplicate content en externe.

Ne pas utiliser le même contenu sur différents sites de réseau

Quand bien même il peut être tentant d’utiliser le même contenu sur plusieurs de vos sites de réseau de thématiques assez proches, cela n’aura que des effets négatifs sur votre référencement. En effet, en agissant de la sorte, Google risque de juger le contenu de vos sites de mauvaise qualité, et donc de les pénaliser dans leur référencement.

Faire attention lors de vos refontes ou migration de site

Les refontes et migrations de site sont très piégeuses concernant le duplicate content. En effet, lorsque l’on change de domaine, ou que l’on refait son site internet, l’on se retrouve à effectuer des redirections dans tous les sens, vers les pages du nouveau site dont l’architecture peut avoir été changée par rapport à l’ancienne version. Les oublis de redirections sont donc courants, et provoquent ainsi l’apparition de contenu dupliqué.

Demander la suppression ou désindexation de pages au contenu proche du vôtre

Il est possible que certains de vos concurrents reprennent le contenu de vos pages pour l’intégrer à leur site. Si vous remarquez une telle pratique, vous pouvez faire jouer vos droits d’auteur concernant vos textes et images, et demander au webmaster de supprimer ou de désindexer ces pages au contenu plagié sur le vôtre. Pour cela, il vous suffit d’envoyer un mail ou message grâce aux informations de contact généralement indiquées sur le site. Si vous n’obtenez pas de réponse à votre demande, vous pouvez vous servir de l’outil de plainte de Google pour forcer la suppression de ce contenu.

5 outils pour détecter le contenu dupliqué

Dans votre stratégie SEO, il est important de régulièrement vérifier votre site afin de vous assurer de la qualité du contenu et de l’absence de contenu dupliqué. Ce contenu dupliqué peut facilement être détecté sur un petit site sans avoir recours à des outils techniques SEO. Mais lorsque votre site possède de nombreuses pages, il est plus compliqué d’identifier ces contenus. Pour vous faciliter la tâche, voici donc une liste non exhaustive de différents outils SEO utilisés en agence, que vous pouvez utiliser afin de détecter la présence ou non de duplicate content sur votre site.

Screaming Frog

Screaming Frog est un outil SEO qui vous permet de crawler votre site web tout comme le ferait Google. Cet outil vous donne différentes informations sur votre site internet, dont la présence ou non de contenu dupliqué en interne. Screaming Frog vous indique également si votre site possède des titres de page et métadonnées en double.

Duplichecker

Duplichecker est une plateforme sur laquelle il vous suffit de rentrer le contenu de l’une de vos pages dans le champ de recherche, puis de cliquer sur “check plagiarism” pour qu’elle analyse le pourcentage de duplicate content présent dans votre contenu. Vous pouvez également directement entrer l’URL de votre site, ou encore uploader le document sur lequel se trouve votre contenu s’il fait plus de 1000 mots. Finalement, Duplichecker permet également de corriger les fautes de grammaire qui pourraient s’être infiltrées dans votre contenu.

Kill Duplicate

Kill Duplicate est l’outil idéal pour repérer les voleurs de contenu. Il vous suffit d’inscrire votre site sur la plateforme pour qu’elle identifie les sites qui vous voleraient votre contenu. Kill Duplicate propose différentes offres, permettant de traiter des sites de différentes tailles.

Siteliner

Siteliner est un outil permettant de déterminer la présence ou non de duplicate content au sein de votre site. Pour cela, entrez l’URL de votre site dans la barre de recherche, et laissez Siteliner crawler votre site. En outre, l’outil vous permet également de détecter la présence de liens cassés, et autres informations techniques sur votre site.

Copyscape

La plateforme Copyscape permet non seulement d’identifier vos potentiels voleurs de contenu, mais également de vérifier si le contenu par vos rédacteurs est bel et bien unique. La version payante de Copyscape vous permet d’être averti en temps réel si votre site a été victime de plagiarisme.

Les définitions les plus populaires

backlink
backlink dofollow
backlink nofollow
article sponsorisé
ancre de lien
citation flow
echange de liens
jus de lien
lien toxique
netlinking
occurence mot-clé
trust flow

Boostez votre visibilité

N’hésitez pas à nous contacter pour obtenir un devis gratuit et personnalisé.

Notez ce page