Après vous avoir exposé l’impact du contenu dupliqué externe sur le SEO dans cet article, et vous avoir fourni des outils pour le corriger, nous allons à présent aborder le contenu dupliqué interne.
Par gain de temps, vous pouvez vouloir utiliser un même texte sur plusieurs pages de votre site (pour des articles similaires en e-commerce par exemple). Ou des détails techniques insoupçonnés créent plusieurs URL pour une page.
Ces exemples créent alors du contenu dupliqué interne, qui risque de baisser les performances de référencement de vos pages identiques. Nous allons voir comment détecter le contenu dupliqué interne et comment le corriger afin d’assurer le référencement naturel optimal de votre domaine !
Qu’est-ce que le contenu dupliqué interne ?
Le contenu dupliqué interne signifie que vous avez des textes identiques au sein de votre propre site. Si plus de 75% d’une de vos pages est disponible sur une ou plusieurs autres pages de votre site, vous risquez que les 25% restants ne suffisent pas pour Google à distinguer ces deux pages ou à saisir l’intérêt d’un texte par rapport à l’autre.
Ces doublons peuvent être causés par :
- Des produits proches avec des textes identiques (variantes),
- Des URL différentes avec des textes identiques,
- Des textes copiés de fichiers PDF disponibles sur votre site,
- Des pages de tag ou de catégories WordPress mal gérées (ce cas fera l’objet d’un article spécifique).
En quoi cela peut-t-il impacter votre référencement ?
Si vous avez 2 pages avec des contenus identiques, comment Google va-t-il décider laquelle proposer pour une même requête ? En ayant des textes similaires, vous mettez plusieurs pages en concurrence sur une même requête et prenez le risque de n’en positionner aucune. Pour garder ses résultats pertinents, le moteur de recherche n’en affichera qu’une des deux. Il est donc inutile de créer plusieurs pages identiques en espérant toutes les positionner sur une requête afin de capter plus de trafic, puisque ces actions sont détectées et traitées.
La 2e conséquence de cette duplication est que le moteur perd du temps à crawler des pages identiques au lieu de parcourir d’autres de vos contenus uniques et importants. En effet, les robots de Google ne crawlent qu’un nombre limité de données en passant sur votre site, nombre déterminé notamment par le Pagerank de votre site et de vos pages, et par la bande-passante disponible. Vous risquez donc de limiter la découverte et donc l’indexation des contenus intéressants de votre site.
Enfin, si vous avez plusieurs pages identiques, vous risquez d’avoir une dispersion de popularité obtenue par des liens. Si vous faites des actions d’acquisition de lien ou que vous en recevez naturellement et que vous avez deux pages identiques, il se peut que vous receviez des liens vers une URL et d’autres vers l’autre page. Vous faites alors des efforts pour obtenir de la popularité sur deux pages identiques qui vont entrer en concurrence (dont l’une risque même d’être non indexée), alors que si tous ces liens arrivaient sur une seule page, son référencement serait plus important.
Détecter le contenu dupliqué interne
Pour repérer le contenu dupliqué sur votre site, vous pouvez utiliser l’outil Siteliner. Celui-ci va explorer votre site et indiquer pour chaque page le pourcentage de contenu identique avec une ou plusieurs autres de vos pages. Attention, il prend en compte le header et footer d’une page dans son calcul, alors que ces zones sont traitées différemment par Google. En effet, ces parties sont forcément communes à toutes les pages d’un site, le moteur de recherche n’a donc aucun intérêt à l’utiliser dans son calcul de référencement. Observez donc uniquement le corps de la page pour identifier du contenu dupliqué.
Vous pouvez bien sûr vous-même chercher des cas de duplicate content sur votre site. Pour cela, explorez vos pages en faisant attention aux textes. Pour les sites e-commerce, surveillez vos descriptifs de contenu notamment, et assurez-vous que vos textes de pages de catégories par exemple ne sont pas repris sur des fiches produits ou d’autres pages.
Pour faciliter ce travail d’exploration, vous pouvez utiliser des outils comme Xenu’s Link Sleuth ou
Screaming Frog (seulement disponible en anglais). Ces logiciels explorent votre site en suivant tous les liens comme le ferait Google, et vous font donc (entre autres fonctionnalités) une liste des URL de votre site. Vous pouvez ainsi voir si des URL que vous ne connaissez pas ont été trouvées, et explorer de manière plus méthodique votre site.
Comment corriger le contenu dupliqué interne ?
Les variantes produits
En e-commerce, un cas fréquent de duplicate content est rencontré lorsqu’un produit est commercialisé avec plusieurs variantes (de couleur, par exemple). Souvent, il existe une fiche produit par couleur, mais avec une description quasiment identique. Avoir seulement un mot ou 2 phrases différentes ne suffit pas à les distinguer.
Si vous êtes dans ce cas, vous avez alors 3 solutions :
- avoir une seule fiche produit avec les variantes gérées par le CMS (via une liste déroulante par exemple, des icônes, des cases à cocher…),
- utiliser l’URL canonique, qui indique que votre contenu est identique à celui d’autres pages,
- réécrire un contenu différent pour chaque page. Cela est plus réalisable si vous avez peu de variantes ou si celles-ci ont de grandes différences faciles à décrire pour créer du contenu (motif sur un t-shirt par exemple).
Les PDF
Vous avez fait des fichiers PDF avec vos descriptions d’articles et les avez mis sur votre site ? Ou vous avez créé une page de contenu à partir d’un texte que vous aviez au format PDF ? Si le contenu de votre PDF est sélectionnable, alors Google peut le lire (c’est notamment pour cela que l’on trouve souvent des fichiers PDF bien référencés dans les résultats de recherche). Vous risquez de voir vos PDF mieux positionnés que vos pages et ainsi freiner l’accès à vos produits (et donc réduire potentiellement vos ventes), ou de baisser le nombre de pages vues de votre site.
Pour corriger cela, vous pouvez empêcher l’indexation des PDF, grâce au fichier robots.txt, s’ils sont tous présents dans un répertoire spécifique de votre site. Si non, utilisez l’en-tête X-robots-tag, qui permet d’ajouter une balise noindex dans l’en-tête HTTP de la page.
Les DUST (différente URL, même texte)
L’acronyme DUST (different url same text) désigne les pages totalement identiques qui ont juste une URL différente. Cela arrive parfois pour la page d’accueil (accessible depuis « nomdedomaine.fr/ » et « nomdedomaine.fr/index » par exemple).
Dans ce cas, il faut simplement choisir l’URL que vous souhaitez garder. Regardez si l’une des pages reçoit des liens externes et gardez celle qui en a le plus. Redirigez en 301 la ou les autres URL qui présentent le texte dupliqué.
N’oubliez pas également de corriger les doublons de balise Title, indiqués dans la Search Console de Google. Cela vous permettra de bien distinguer le contenu de chaque page pour le référencement, et peut-être trouverez-vous des pages dupliquées par ce biais !
Des contenus uniques favorisent l’indexation et le SEO de votre site
En vous assurant d’éviter les doublons sur votre site, vous favorisez l’exploration de votre site car les robots ont alors moins de pages à crawler. De plus, cela évite que vos contenus de qualité ne soient rétrogradés à cause d’une concurrence avec eux-mêmes. Couplée à une stratégie de contenu pertinente, cette surveillance vous permet d’améliorer votre référencement naturel.
Vous pensez avoir un cas de contenu dupliqué sur votre site mais vous ne savez pas comment l’identifier et le traiter ? Contactez-nos experts SEO qui vous accompagneront dans cette démarche.