Les moteurs de recherche comme Google ont un problème. Ils appellent cela du « contenu dupliqué ». Votre contenu est affiché sur différentes pages du site Web et ils ne savent pas à quelle adresse l'afficher. Ce contenu en double est particulièrement problématique lorsque les gens créent des liens vers toutes les différentes versions de votre contenu. Le but de cet article est de vous aider à comprendre les différentes causes du contenu en double, puis à découvrir comment résoudre chacune d'entre elles.
Raisons du contenu en double
1. Mal comprendre le concept d'URL
2. ID de session
3. Paramètres de suivi des URL
4. Recherche de contenu et agrégation de contenu
5. Ordre des paramètres
6. Pagination des commentaires
7. Imprimer la page
8. www contre non www
Solution de contournement conceptuelle, balise « canonique »
1. Identifiez le contenu en double
2. Outils Google pour les webmasters
3. Commande de recherche pour interroger le titre
Étapes pratiques pour résoudre le contenu en double
1. Évitez le contenu en double
2. Redirection 301
4. Utilisez la balise rel="canonical"
5. Lien vers le contenu original
Résumé : Le contenu en double peut et doit être résolu
Vous pouvez imaginer le contenu dupliqué comme si vous vous trouviez à un carrefour et qu'il y avait deux directions différentes sur les panneaux routiers indiquant la même destination. Quelle direction devriez-vous prendre ? De plus, la situation est encore pire lorsque votre destination est différente. En tant que lecteur, peu vous importe d'où vient le contenu, mais les moteurs de recherche doivent en choisir un à afficher dans les résultats de recherche, car ils ne veulent pas afficher deux fois le même contenu.
Par exemple, le contenu sur le mot-clé -x/ , cette situation n'est pas fictive, ce problème existe dans de nombreux systèmes cms. Par exemple, votre article a été collecté et republié par certains internautes, certaines personnes ont créé un lien vers votre première URL et d'autres ont créé un lien vers votre deuxième URL. C’est là qu’intervient le problème du contenu dupliqué. Si tous les liens concernant ce mot-clé pointent vers une seule URL, la probabilité que le mot-clé figure sur la page d’accueil sera beaucoup plus élevée.
Causes du contenu en double
De nombreux facteurs peuvent conduire à la duplication de contenu. La plupart sont techniques, il n'est pas très courant que quelqu'un décide de mettre le même contenu à deux endroits différents sans citer la source originale, et la plupart des gens trouveraient cela inconfortable. Les raisons techniques sont également très bonnes. La plupart des raisons en sont que les programmeurs ne se placent pas du point de vue des navigateurs ou des utilisateurs et ne se soucient pas des robots des moteurs de recherche, mais suivent simplement la pensée du programmeur. Supposons que l'article mentionné précédemment apparaisse sur http://www.example.com/keyword-x/ et http://www.example.com/article-category/keyword-x/ ? Si vous demandez au programmeur, il vous dira qu'il n'apparaît qu'une seule fois.
Mal comprendre le concept d'URL
Alors les programmeurs sont-ils fous ? Non, non, il parlait juste encore une autre langue. L'ensemble du site Web que vous voyez est probablement basé sur une base de données. Dans cette base de données, il n'y a qu'un seul article et le programme du site Web permet d'accéder à un article de la base de données via différentes URL. Car aux yeux des programmeurs, le seul signe est que les articles de la base de données ont des identifiants uniques, et non des URL. Pour les moteurs de recherche, l’URL est l’identifiant unique d’un article. Si vous dites cela à votre programmeur, il comprendra la cause du problème, puis, comme la plupart des programmeurs avec lesquels je travaille, il se demandera pourquoi les moteurs de recherche sont stupides et pourquoi il ne peut pas résoudre ce problème. De cette façon, il a eu une autre mauvaise pensée.
ID de session
Vous souhaitez souvent suivre les mouvements de vos visiteurs, par exemple stocker les articles qu'ils achètent dans leur panier. Pour ce faire, vous devez leur offrir une séance. Une session est essentiellement un bref historique de ce qu'un visiteur a fait sur votre site, qui peut inclure du contenu tel que les articles d'un panier. Afin d'empêcher la session du visiteur de cliquer d'une page Web à une autre, elle doit être stockée quelque part. La solution la plus courante est celle des cookies, mais les moteurs de recherche ne stockent généralement pas de cookies.
Ce qui se passe à ce stade, c'est que certains systèmes de sites Web utilisent l'ID de session dans l'URL pour revenir. À ce stade, les liens internes de chaque site Web seront ajoutés à l'ID de session, et l'ID de session est unique, ce qui génère une nouvelle URL et donc du contenu en double.
Utilisation des paramètres d'URL de suivi et de tri
Une autre cause de contenu dupliqué est l'utilisation de paramètres d'URL, bien que les paramètres ne modifient pas le contenu de la page, comme dans le cas des liens de suivi. Vous verrez que http://www.example.com/keyword-x/ et http://www.example.com/keyword-x/?source=rss ne sont pas les mêmes URL vers les moteurs de recherche. Ce dernier peut vous permettre de suivre les sources, ce qui peut rendre votre classement un peu plus difficile, ce qui a un très mauvais effet négatif.
Cela s'applique non seulement aux paramètres de suivi, mais également à chaque paramètre que vous ajoutez après l'URL sans modifier le contenu réel de votre page. Impliquer des paramètres modifiera l'ordre des produits sur la page Web ou affichera une autre barre latérale, ce qui entraînera une duplication du contenu.
Scraping de contenu et agrégation de contenu
Bien que la grande majorité de la cause du contenu en double soit de votre propre faute, ou du moins de celle de votre site, il s'agit parfois de l'utilisation de votre contenu par un autre site sans votre consentement. Ils ne renvoient pas toujours à votre contenu original et les moteurs de recherche ne savent pas qu'ils devront traiter une autre version de votre même article.
À mesure que votre site devient plus populaire, vous rencontrerez de plus en plus d'analyses et vos problèmes s'aggraveront.
Ordre des paramètres
Une autre raison courante est que le CMS n'utilise pas d'URL concises et claires, mais utilise /? id=1&cat=2, l'ID indique ici l'article et cat indique la catégorie. Dans la plupart des systèmes de création de sites Web, cette URL /? cat=2&id=1 affichera également le même contenu, mais pour les moteurs de recherche, ils seront complètement différents.
Pagination des commentaires
Il existe une option pour paginer les commentaires dans le système wordPRess ou d'autres programmes. Cela entraînera la duplication du contenu de l'article dans l'URL de l'article lui-même et dans l'URL de l'article+/comment-page-1/, /comment-page-2/, etc.
Imprimer la page
Si votre cms génère des pages d'impression et des liens à partir de vos pages d'articles, dans la plupart des cas, Google trouvera ces pages, sauf si vous les empêchez spécifiquement. Quelle version Google doit-il afficher ? Une page avec des publicités et du contenu environnant ou une page avec uniquement vos articles.
WWW ou non-WWW
C'est une vieille question, mais parfois les moteurs de recherche confondent encore le contenu dupliqué WWW et non-WWW lorsque les deux versions sont accessibles.
Une situation rare est celle du contenu en double http vs https.
Solution de contournement conceptuelle, balise « canonique »
Comme indiqué ci-dessus, le contenu en double résultant de différentes URL pour le même contenu constitue un problème, mais il peut être résolu. Un être humain peut généralement facilement vous dire quelle devrait être l’URL correcte d’un article lors de la publication d’un article. Ce qui est drôle, c'est que parfois vous posez la question à 3 personnes dans la même entreprise et vous obtenez 3 réponses différentes.
Résumé : Le contenu en double peut et doit être résolu
Dans ces cas-là, le problème doit être résolu car à la fin il ne peut y avoir qu’une seule URL. L'URL correcte de l'article peut être nommée Canonical par les moteurs de recherche.
Identifier le contenu en double
Vous ne savez peut-être pas si vous avez du contenu en double sur votre site. Laissez-moi vous donner quelques conseils.
Outils Google pour les webmasters
Google Webmaster Tools est un excellent outil pour identifier le contenu en double. Si vous accédez à Google Webmaster Tools et consultez votre site, cochez Diagnostic -> Suggestions HTML, vous verrez quelque chose comme ceci
Si une page a un titre ou une description en double, il ne s’y passe presque rien de bon. En cliquant dessus, vous verrez quelles URL ont des titres ou des descriptions en double pour vous aider à identifier le problème. Le problème est que si vous avez un article sur le « mot-clé -X » affiché dans deux catégories, leurs titres peuvent être différents. Par exemple, leurs titres seraient « Mot-clé X – Catégorie X – Exemple de site » et « Mot-clé X – Catégorie Y – Exemple de site ». Google ne les traitera pas comme des titres en double, mais vous pouvez les trouver en effectuant une recherche.
Rechercher un titre ou d'autres fragments
Il existe plusieurs opérateurs de recherche qui sont très utiles dans cette situation. Si vous souhaitez retrouver toutes les URL des articles de votre site Internet qui contiennent votre mot-clé « X », vous pouvez saisir la commande suivante dans le champ de recherche Google :
site:exemple.com titre:"Mot clé X"
Copier le code
Google vous montrera toutes les pages sur example.com qui contiennent ce mot-clé. Plus vous recherchez des mots-clés spécifiques dans la section titre, plus il sera facile de trouver le contenu en double et de les éliminer. Vous pouvez également utiliser la même méthode pour identifier votre contenu en double sur les sites Web d’autres personnes. Par exemple, le titre complet de votre article est le mot-clé X : pourquoi il est génial, vous pouvez effectuer une recherche
intitle:"Mot clé X - pourquoi c'est génial"
Copier le code
Google renverra tous les sites Web contenant ce titre. Parfois, vous pouvez également rechercher une ou deux phrases dans votre article, car certains grattoirs de contenu peuvent modifier votre titre. Dans certains cas, lorsque vous effectuez une recherche, Google peut afficher l'invite suivante à la fin des résultats :
C'est le signe que Google a supprimé les résultats de données en double. Ce n'est évidemment pas bon. Vous pouvez continuer à cliquer pour afficher d'autres résultats et voir si cela vous aide à résoudre ces problèmes.
Étapes pratiques pour résoudre le contenu en double
Une fois que vous avez décidé quelle URL doit être canonisée pour votre article, vous devez lancer un processus de canonisation (ok, je sais que je suis verbeux et je l'ai dit plusieurs fois). Cela signifie essentiellement informer les moteurs de recherche et leur faire découvrir cette version canonique le plus rapidement possible. Voici quatre façons de résoudre ce problème :
1. Ne créez pas de contenu en double
2. Rediriger le contenu en double vers des URL canoniques
3. Ajoutez une balise canonique de lien à la page en double
4. Ajoutez un lien hypertexte vers l'URL canonique sur la page de contenu en double
éviter le contenu en double
Pour les causes ci-dessus de contenu en double, il existe des moyens simples de les résoudre.
1. ID de session dans l'URL ?
Habituellement, vous pouvez l'annuler dans les paramètres de votre système
2. Il y a une page imprimée
Rien de tout cela n'est nécessaire, vous pouvez utiliser une feuille de style d'impression
3. Utilisez la pagination des commentaires dans WordPress
Pour ce problème, pouvez-vous annuler la pagination des commentaires dans les paramètres ?
4. Différents ordres de paramètres
Dites à votre programmeur de créer un code pour trier dans le même ordre (cela fait généralement référence à la fabrique d'URL)
5. Suivi des problèmes de paramètres
Dans la plupart des cas, vous pouvez utiliser des valeurs de hachage # au lieu de paramètres pour suivre les campagnes marketing
6. Problème WWW ou non-WWW
Choisissez la version souhaitée et respectez la redirection. Vous pouvez définir cela dans Google Webmaster Tools.
Si votre problème n’est pas si simple à résoudre, cela vaut peut-être la peine d’éviter le contenu en double. C'est la meilleure solution jusqu'à présent.
301 rediriger le contenu en double
Dans certains cas, il n'est pas possible d'empêcher complètement le contenu des articles système que vous utilisez de générer des URL incorrectes, mais vous pouvez les rediriger. Si cela n'a pas de sens pour vous (et je comprends), vous devez vous rappeler d'en parler à vos programmeurs. De plus, si vous résolvez un problème de contenu en double, assurez-vous de rediriger toutes les anciennes URL de contenu en double vers les URL canoniques appropriées.
Utilisez rel="Canonical"
Parfois, vous ne voulez pas ou ne pouvez pas résoudre le problème des articles en double, mais vous devez savoir qu'il s'agit d'une mauvaise URL. Pour ce problème particulier, les moteurs de recherche ont également introduit ceci
Éléments canoniques. La partie où il est placé sur votre site Web ressemble à ceci :
<link rel="canonical" href=" http://example.com/keyword-x/"/ >
Dans la partie href de la balise de lien canonique, vous placez l'URL correctement canonique de l'article. Lorsque Google ou d'autres moteurs de recherche prenant en charge cet attribut trouvent cet élément de lien, il effectuera un léger saut 301 : il passera également par la page Most. de la valeur du lien va à votre URL canonique.
Ce processus sera plus lent qu'une redirection 301, il serait donc préférable que vous utilisiez 301. John Mueller de Google a mentionné http://www.seroundtable.com/google-canonical-tag-vs-301-redirect-12611.html
Lien vers votre version originale
Si vous ne pouvez pas faire ce qui précède, vous n'avez probablement pas de contrôle sur la section « tête » de votre site où le contenu est affiché, et c'est également une bonne idée d'ajouter un lien vers votre page d'origine en haut ou en bas de la page. Il existe d'autres articles vers lesquels vous souhaitez ajouter un lien dans votre flux RSS. Certains robots peuvent filtrer ces liens, mais certains peuvent y rester, et si Google compte plusieurs liens pointant vers votre article, il saura également rapidement qu'il s'agit de la version canonique exacte de l'article.
Résumé : Le contenu en double peut et doit être résolu
Le contenu dupliqué se produit partout. Je n'ai pas encore trouvé de site Web de plus de 1 000 pages sans un seul contenu en double. Cela nécessite votre attention à tout moment. Cela peut être résolu et les récompenses peuvent être grandes. Le classement de vos pages de contenu de haute qualité peut monter en flèche après avoir corrigé le contenu en double. Bien sûr, vous devez d’abord identifier ces problèmes, aider vos programmeurs à trouver des solutions aux problèmes et même vous aider à résoudre les problèmes.
Auteur de la traduction : zhipeng
Source de l'article : Forum Lightyear ( http://www.gnbase.com/thread-474-1.html )
Texte original en anglais : http://yoast.com/articles/duplicate-content/
Remarque : L'article est réimprimé dans Webmaster Home avec l'autorisation de zhipeng, Lightyear Forum. Si vous devez réimprimer, veuillez indiquer la source et le lien de l'article.