Comment gérer la duplication et créer un contenu unique de haute qualité pour la seo

Bien qu'il s'agisse d'un sujet apparemment simple, certains des meilleurs sites Web ont du mal à créer un contenu unique et de haute qualité. S'ils ne sont pas optimisés, ces sites peuvent faire face à des pertes de trafic et connaître des vitesses d'indexation et de classement lentes, en fonction de l'ampleur des problèmes. Les sites Web qui cherchent à créer un contenu unique et de haute qualité doivent commencer par identifier et résoudre les problèmes de duplication sur leurs sites. Dans cet article, nous couvrirons les éléments suivants :

  • La signification du contenu dupliqué
  • Pourquoi le contenu dupliqué est mauvais pour le référencement
  • Comment identifier le contenu dupliqué
  • Comment gérer le contenu dupliqué ou léger
  • Qu'est-ce qu'un contenu de haute qualité

Qu'est-ce que le contenu dupliqué ?

Le contenu dupliqué existe lorsque deux pages (ou plus) partagent le même contenu, ou presque le même contenu (Figure 1). La duplication peut exister sur un domaine, des sous-domaines ou sur plusieurs domaines uniques. 

La capture d'écran ci-dessous est un exemple de ce à quoi ressemblerait une duplication de correspondance exacte sur deux URL distinctes : 

Figure 1

La figure 2 est un exemple de duplication qui ne correspond pas exactement, car il existe de légères différences dans le contenu des deux pages. Cependant, les deux pages ciblent en fin de compte les mêmes mots-clés et se classeraient pour des termes similaires, ce qui entraînerait une duplication :

Figure 2

La définition de Google de la duplication est "... des blocs substantiels de contenu dans ou entre des domaines qui correspondent complètement à un autre contenu ou sont sensiblement similaires..." Vous pourriez penser que deux éléments de contenu similaire ne causeraient pas beaucoup de problème. Google a même déclaré qu'il n'y avait pas de pénalité pour le contenu dupliqué . Donc quel est le problème?

Pourquoi le contenu dupliqué est-il mauvais pour le référencement ?

Bien qu'il n'y ait pas de « pénalité » pour avoir du contenu en double sur votre site, cela peut nuire à votre trafic organique, non pas parce que Google pénalise votre site, mais parce que votre classement souffre des conséquences suivantes :

  • Les moteurs de recherche ne savent pas quelle page classer (vous êtes autant en concurrence avec vous-même qu'avec vos concurrents).
    • Cette confusion peut conduire à deux ou plusieurs pages en concurrence pour le classement. Parfois, plusieurs pages peuvent fonctionner relativement bien pour une requête. Dans la plupart des cas, cependant, les deux pages fonctionneront mal, voire pas du tout, selon l'autorité du site Web dans le sujet, par exemple. Avoir une page de haute qualité permettra à une seule page de détenir plus d'équité.
  • Les deux pages peuvent gagner des backlinks.
    • En termes simples, les backlinks sont des liens provenant d'autres sites qui fournissent un signe d'approbation. Ils peuvent donner un avantage à une URL en transmettant l'équité du lien et le trafic à partir de l'URL source. Si vous avez un contenu dupliqué sans aucune variation (100 % identique) et que la page la moins autoritaire gagne des backlinks, il y a de fortes chances que vous voyiez que la page la moins autoritaire commence à concurrencer la page autoritaire, ce qui entraîne deux pages qui divisent l'équité . Il en résulte que les deux pages fonctionnent au même niveau, tandis qu'une page permettrait de créer plus d'équité.
  • Votre budget de crawl manque d'efficacité.
    • Le budget de crawl correspond au nombre de pages crawlées par Google sur votre site au cours d'une période donnée. Ce nombre varie d'un jour à l'autre et d'un site à l'autre. Toutefois, le fait d'avoir des pages inutiles sur votre site ne permet pas à Google d'explorer efficacement vos pages les plus importantes. Par conséquent, cela crée plus de travail pour Google et pourrait empêcher vos pages nouvelles et/ou faisant autorité d'être explorées, indexées et classées de manière efficace.

Avec une compréhension de ce qu'est le contenu dupliqué et de la façon dont il nuit à votre site, vous vous demandez peut-être quelle est la première étape pour identifier le contenu dupliqué sur votre site. Cela peut souvent sembler une tâche difficile, selon la taille de votre site Web, mais c'est plus facile si vous savez par où commencer.

Identification du contenu dupliqué

Il existe plusieurs façons d'identifier le contenu dupliqué. Voici trois méthodes uniques qui fonctionnent bien :

Recherche de doublons à l'aide de Google Search Console (GSC) et de Google Analytics

Il existe des modèles d'URL courants que vous devez d'abord rechercher dans GSC et Google Analytics :

  • Versions http et https d'une URL
  • Versions www et non-www d'une URL
  • URL avec une barre oblique "/" à la fin et URL sans barre oblique à la fin
  • URL paramétrées
  • Capitalisation dans les URL
  • Problèmes canoniques
  • Pages de recherche générées automatiquement
  • Requêtes à longue traîne avec classement de plusieurs pages (voir capture d'écran dans la figure 3)
figure 3

Recherche de doublons à l'aide d'outils d'exploration

La plupart des outils d'exploration peuvent détecter pour vous la duplication de correspondance exacte et vous aider à découvrir les pages avec du contenu en double (voir Figure 4). Ces outils repèrent souvent les éléments suivants :

  • H1 correspondants
  • Méta descriptions et titres de page en double
  • Contenu identique (correspondance exacte ou % similaire)
Figure 4 (Source : Botify )

Après avoir identifié la duplication, vous ne savez peut-être pas comment la gérer. Avant de nous plonger dans la gestion de la duplication, nous devons noter que le contenu dupliqué, selon Google , "n'est pas un motif d'action sur ce site, sauf s'il apparaît que l'intention du contenu dupliqué est d'être trompeur et de manipuler les résultats des moteurs de recherche". Donc, en bref, votre site Web ne va pas complètement abandonner Google si vous avez des doublons. Mais il est possible d'améliorer la compréhension de Google du contenu que vous souhaitez classer, ce qui améliore le trafic organique et aide également à optimiser votre budget de crawl.

Comment gérer le contenu dupliqué ou léger

Il existe plusieurs façons de gérer le contenu dupliqué. La méthode que vous choisissez dépend en fin de compte du fait que la page est nécessaire ou non pour l'expérience utilisateur. Comme illustré dans l'organigramme de la figure 5, les meta robots noindex, robots.txt disallow ou des balises canoniques doivent être utilisés si la page est nécessaire pour l'expérience utilisateur. Si la page n'a pas besoin d'être consultée par les utilisateurs, une redirection 301 vers la page faisant autorité peut être mise en place. Il est toutefois important de noter que les canoniques ne sont pas respectées par Google à 100 % du temps, contrairement aux autres méthodes mentionnées ci-dessous.

Gérer la duplication avec noindex

Utilisez noindex pour empêcher les moteurs de recherche d'indexer la page. Google prend en charge deux méthodes d' implémentation noindex . Les URL sans index seront explorées moins fréquemment et, avec le temps, Google peut même arrêter complètement d'explorer la page. Cependant, l'utilisation d'un noindex ne garantit pas que la page ne sera pas explorée. Google peut revenir et explorer à nouveau la page après la mise en place du noindex, au moins pour vérifier que la balise noindex est toujours là.

Gérer la duplication avec interdire

La gestion de la duplication avec une instruction d'interdiction dans votre fichier robots.txt peut être un moyen simple de gérer une duplication généralisée. Cela vous aidera à optimiser votre budget d'exploration en garantissant que les moteurs de recherche n'exploreront jamais un certain type de page. Il est important de noter que l'utilisation d'une interdiction ne supprimera pas les URL existantes de l'index de Google, et les pages non autorisées ne peuvent pas dépasser l'équité.

Combiner noindex et disallow ?

L'utilisation d'une balise noindex en combinaison avec une instruction d'interdiction dans le fichier robots.txt est techniquement inutile. Si l'URL ne peut pas être explorée, la balise noindex n'est pas visible. Cependant, il n'est pas rare de voir des URL avec les deux implémentations. Il est probable que l'instruction d'interdiction ait été ajoutée après que toutes les URL ont été désindexées, grâce à une balise noindex précédemment implémentée.

Gérer la duplication avec les balises canoniques

Les balises canoniques sont souvent utilisées pour gérer la duplication. S'il y a des pages en double et que les deux pages doivent exister, un canonique peut être utilisé pour indiquer aux moteurs de recherche quelle devrait être la page faisant autorité. Notez que les canoniques ne sont que des indices et non des directives auxquelles les moteurs de recherche doivent obéir. Google ne respecte pas toujours le canonique mis en place par l'utilisateur. Afin de renforcer auprès des moteurs de recherche ce qu'est une page faisant autorité, une balise canonique d'auto-référence doit être implémentée sur toutes les pages faisant autorité, tout en s'assurant que les liens internes pointent uniquement vers ces URL faisant autorité. La gestion de la duplication généralisée est souvent mieux gérée avec l'une des méthodes mentionnées ci-dessus.

Gérer la duplication avec une redirection 301

La gestion de la duplication avec une redirection 301 est la méthode la plus efficace pour gérer la duplication si la page n'est pas nécessaire pour l'expérience utilisateur. Il est important de rediriger 301 la page dupliquée vers la page faisant autorité que vous souhaitez classer. Cela garantit que l'équité qu'il a accumulée avec les moteurs de recherche au fil du temps ne sera pas perdue. De plus, assurez-vous de ne perdre aucun contenu potentiellement unique en consolidant le contenu avant la mise en place de la redirection 301.

La figure 6 est une capture d'écran de GSC montrant comment une page faisant autorité a gagné du terrain une fois que la page ne faisant pas autorité (et dupliquée) a été redirigée 301 vers la page faisant autorité et consolidée. Comme le montrent le classement et les clics incohérents, les moteurs de recherche avaient du mal à comprendre quelle page devait être classée lorsque les deux pages existaient sur le site.

Comment gérer le contenu léger

Le contenu léger est un contenu qui manque de substance dans la mesure où il décourage les utilisateurs de s'engager avec un site Web. Le contenu léger peut entraver l'expérience utilisateur et produire des résultats négatifs dans la recherche, réduisant ainsi les opportunités de visibilité organique. Du point de vue des moteurs de recherche, un contenu léger peut signifier un contenu dupliqué ou similaire ou une faible proportion d'éléments de page uniques et explorables. Souvent, un domaine qui contient de grandes quantités de contenu léger est considéré comme une source d'informations de mauvaise qualité par les moteurs de recherche. La gestion du contenu léger revient également à savoir si la page est nécessaire ou non pour l'expérience utilisateur. Cependant, dans la plupart des cas, il est avantageux d'inclure du contenu supplémentaire de haute qualité sur la page. Habituellement, il existe des possibilités de rendre le contenu unique et de cibler d'autres mots-clés.

Une fois que vous avez géré la duplication et consolidé le contenu dupliqué ou léger si nécessaire, vous vous demandez peut-être quelle est la prochaine étape. Il peut y avoir des opportunités de réévaluer une partie de votre contenu principal pour le rendre de meilleure qualité. Dans certains cas, mettre à jour le contenu d'une ou des deux pages en double et le différencier est une bonne solution pour créer un contenu unique et de haute qualité. Dans cet esprit, couvrons ce qu'est un contenu de haute qualité et ce que Google recherche dans votre contenu. 

Qu'est-ce qu'un contenu de haute qualité ?

Commençons cette conversation en février 2011 lorsque Google a annoncé la mise à jour de l'algorithme Panda .

Comme l'indique le billet de blog de Google, cette mise à jour a été faite "... pour réduire le classement des sites de mauvaise qualité - des sites à faible valeur ajoutée pour les utilisateurs, copiez le contenu d'autres sites Web ou de sites qui ne sont tout simplement pas très utiles. En même temps, cela fournira de meilleurs classements pour les sites de haute qualité - des sites avec un contenu et des informations originaux tels que des recherches, des rapports approfondis, des analyses approfondies, etc.

Cette mise à jour était révolutionnaire à l'époque, et il ne faut pas l'oublier. De nombreux sites capables de bien se classer manquent de trafic car leur contenu n'est toujours pas là où il devrait être. Ce n'est pas que le site soit techniquement faux, mais le contenu pourrait simplement ajouter plus de valeur aux utilisateurs.

Les sites Web doivent prendre une décision concernant leur contenu de mauvaise qualité. John Mueller de Google mentionne dans la vidéo ci-dessous qu'il existe plusieurs façons de gérer cela. En bref, il propose trois façons de gérer le contenu de mauvaise qualité : 

  1. Améliorez le contenu de mauvaise qualité, si vous souhaitez le conserver.
  2. Supprimez complètement le contenu, si ce n'est pas quelque chose que vous voulez défendre.
  3. N'indexez pas le contenu, si vous pensez qu'il est nécessaire pour les utilisateurs, mais que vous ne voulez pas qu'il soit indexé par Google.

John dit que parmi toutes les options, l'équipe de classement de Google préfère que vous amélioriez la qualité de votre contenu si vous le pouvez.

Hangout Google Webmaster Central pendant les heures de bureau – 23 juillet 2019

Alors, qu'est-ce qu'un contenu de haute qualité aux yeux de Google et que pouvez-vous faire pour améliorer votre contenu de mauvaise qualité ?

Un contenu de haute qualité est…

Bien qu'il n'y ait aucune garantie que le contenu sera bien classé, un contenu de haute qualité présente souvent les caractéristiques suivantes :

Unique

Un contenu de haute qualité est unique, ce qui signifie qu'il offre une nouvelle perspective sur n'importe quel sujet, ne duplique pas votre site et ne fait pas double emploi avec un autre site. Bien sûr, les sujets seront répétés d'un site à l'autre, mais il est toujours possible de donner une tournure unique à un sujet commun pour l'améliorer. Comme mentionné ci-dessus, vous pouvez prendre votre contenu dupliqué, le consolider et l'améliorer pour créer un contenu de meilleure qualité et plus unique pour montrer aux moteurs de recherche quelle page vous souhaitez classer.

Déterminé

Le contenu ciblé répond aux questions les plus difficiles des utilisateurs d'une manière qui se connecte à vos autres éléments de contenu. Les moteurs de recherche comprennent mieux votre site en examinant comment les sujets sont tous liés.

Crédible

Essayez de rédiger du contenu dans lequel vous êtes un expert. Si vous êtes un site de pièces automobiles, ne publiez pas de contenu sur les meilleurs lieux de vacances de 2020 simplement parce qu'il y a un volume de recherche autour du sujet. Quelques exemples de création de crédibilité sont des liens vers des sources expertes référencées, y compris un auteur avec un lien vers l'expérience pertinente des auteurs, la présentation de vos récompenses et certifications dans votre domaine, ou simplement la garantie que les titres de page et les en-têtes principaux décrivent avec précision le contenu principal.

Utile

Assurez-vous que votre page est utile en la rendant facile à comprendre pour les moteurs de recherche et les utilisateurs. Un exemple de ceci pourrait être le formatage du contenu dans un format facile à lire comme une liste à puces. Nous avons remarqué que les listes de contenu avec une bonne structure sont préférées par les moteurs de recherche et sont plus faciles à comprendre pour les utilisateurs.

Partageable

Le contenu partageable est un contenu que les gens voudront promouvoir pour vous, gagnant potentiellement des backlinks précieux et générant du trafic supplémentaire vers votre site.

Points clés à retenir

  • Les propriétaires de sites doivent prendre une décision concernant leur contenu de mauvaise qualité et dupliqué.
  • Il existe différentes solutions pour gérer le contenu de mauvaise qualité et dupliqué en fonction de la situation, comme indiqué ci-dessus. 
  • S'assurer que votre contenu est unique, utile, crédible, utile et partageable est le meilleur moyen d'éviter les pertes potentielles de trafic et les problèmes de budget de crawl.
Webspirit

Demandez votre devis gratuitement

Demander un devis
Ou Appelez-nous (123) 456 7890