Mesin pencari seperti Google punya masalah. Mereka menyebutnya "konten duplikat". Konten Anda ditampilkan di berbagai halaman situs web, dan mereka tidak tahu di alamat mana untuk menampilkannya. Konten duplikat ini menjadi masalah terutama ketika orang menautkan ke semua versi konten Anda yang berbeda. Tujuan artikel ini adalah untuk membantu Anda memahami berbagai penyebab duplikat konten dan kemudian mencari tahu cara memperbaikinya.
Alasan duplikat konten
1. Kesalahpahaman konsep URL
2. ID sesi
3. Parameter pelacakan URL
4. Pencarian konten & agregasi konten
5. Urutan parameter
6. Paginasi komentar
7. Cetak halaman
8. www vs. tidak ada www
Solusi konseptual tag "kanonik".
1. Identifikasi duplikat konten
2. Alat Webmaster Google
3. Perintah pencarian untuk menanyakan judul
Langkah praktis mengatasi duplikat konten
1. Hindari duplikat konten
2. Pengalihan 301
4. Gunakan tag rel="canonical".
5. Tautan ke konten asli
Ringkasan: Konten duplikat dapat dan harus diatasi
Anda dapat membayangkan duplikat konten seolah-olah Anda sedang berdiri di persimpangan jalan dan ada dua arah berbeda pada rambu jalan yang menunjuk ke tujuan yang sama. Terlebih lagi, situasinya menjadi lebih buruk bila tujuan Anda berbeda. Sebagai pembaca, Anda tidak peduli dari mana konten tersebut berasal, namun mesin pencari harus memilih satu untuk ditampilkan di hasil pencarian karena mereka tidak ingin menampilkan konten yang sama dua kali.
Misalnya konten tentang kata kunci -x/ , situasi ini tidak fiktif, masalah ini terjadi di banyak sistem cms. Misalnya artikel Anda telah dikumpulkan dan diposkan ulang oleh beberapa netizen, beberapa orang menautkan ke URL pertama Anda, dan beberapa orang menautkan ke URL kedua Anda. Di sinilah masalah duplikat konten muncul. Jika semua tautan tentang kata kunci ini mengarah ke satu URL, kemungkinan kata kunci tersebut berada di beranda akan jauh lebih tinggi.
Penyebab duplikat konten
Ada banyak faktor yang dapat menyebabkan duplikat konten. Sebagian besar bersifat teknis, tidak umum bagi seseorang untuk memutuskan untuk meletakkan konten yang sama di dua tempat berbeda tanpa mengutip sumber aslinya, dan kebanyakan orang akan merasa tidak nyaman. Alasan teknisnya juga sangat bagus. Sebagian besar alasannya adalah karena pemrogram tidak berdiri dari sudut pandang browser atau pengguna, dan tidak peduli dengan spider mesin pencari, tetapi hanya mengikuti pemikiran pemrogram. Misalkan artikel yang disebutkan sebelumnya muncul di http://www.example.com/keyword-x/ dan http://www.example.com/article-category/keyword-x/ ? Jika Anda bertanya kepada programmernya, dia akan menjawab bahwa itu hanya muncul satu kali.
Kesalahpahaman konsep URL
Jadi, apakah programmer itu gila? Tidak, tidak, dia baru saja berbicara bahasa lain lagi. Seluruh situs web yang Anda lihat mungkin didorong oleh basis data. Dalam database tersebut hanya terdapat satu artikel, dan program website memungkinkan artikel dalam database diakses melalui URL yang berbeda. Karena di mata programmer, satu-satunya tanda adalah artikel di database memiliki ID unik, bukan URL. Bagi mesin pencari, URL adalah pengidentifikasi unik sebuah artikel. Jika Anda memberi tahu pemrogram Anda hal ini, dia akan memahami penyebab masalahnya, dan kemudian dia, seperti kebanyakan pemrogram yang bekerja dengan saya, akan bertanya-tanya mengapa mesin pencari itu bodoh dan mengapa dia tidak dapat menyelesaikan masalah ini. Dengan cara ini, dia beralih ke pemikiran salah lainnya.
ID Sesi
Anda sering kali ingin melacak pergerakan pengunjung Anda, seperti menyimpan barang yang mereka beli di keranjang belanja mereka. Untuk melakukan ini, Anda harus memberi mereka sesi. Sesi pada dasarnya adalah riwayat singkat tentang apa yang telah dilakukan pengunjung di situs Anda, yang mungkin mencakup konten seperti item dalam keranjang belanja. Agar sesi pengunjung tidak mengklik satu halaman web ke halaman web lainnya, sesi tersebut perlu disimpan di suatu tempat. Solusi yang paling umum adalah cookie, namun mesin pencari biasanya tidak menyimpan cookie.
Apa yang terjadi pada titik ini adalah beberapa sistem situs web menggunakan ID sesi di URL untuk kembali. Pada titik ini, tautan internal di setiap situs web akan ditambahkan dengan ID sesi, dan ID sesi bersifat unik, yang menghasilkan URL baru dan karenanya menduplikasi konten.
Menggunakan parameter URL pelacakan dan penyortiran
Penyebab lain dari duplikat konten adalah penggunaan parameter URL, meskipun parameter tidak mengubah konten halaman, seperti pada link pelacakan. Anda akan melihat bahwa http://www.example.com/keyword-x/ dan http://www.example.com/keyword-x/?source=rss bukan URL yang sama untuk mesin pencari. Yang terakhir mungkin memungkinkan Anda melacak sumber, yang mungkin membuat peringkat Anda sedikit lebih sulit, yang merupakan efek negatif yang sangat buruk.
Hal ini tidak hanya berlaku pada parameter pelacakan, namun juga berlaku pada setiap parameter yang Anda tambahkan setelah URL tanpa mengubah konten sebenarnya di laman Anda. Parameter yang terlibat akan mengubah urutan produk di halaman web atau menampilkan sidebar lain, yang akan menyebabkan duplikat konten.
Pengikisan konten dan agregasi konten
Meskipun sebagian besar penyebab duplikat konten adalah kesalahan Anda sendiri, atau setidaknya kesalahan situs Anda, terkadang penyebabnya adalah penggunaan konten Anda oleh situs lain tanpa persetujuan Anda. Mereka tidak selalu tertaut ke konten asli Anda, dan mesin pencari tidak tahu bahwa mereka harus memproses versi lain dari artikel Anda yang sama.
Saat situs Anda menjadi lebih populer, Anda akan menghadapi lebih banyak perayapan, dan masalah Anda akan semakin parah.
Urutan parameter
Alasan umum lainnya adalah CMS tidak menggunakan URL yang ringkas dan bersih, namun menggunakan /? id=1&cat=2, ID di sini menunjukkan artikel, dan cat menunjukkan kategori. Di sebagian besar sistem pembuatan situs web, URL ini /? cat=2&id=1 juga akan merender konten yang sama, tetapi bagi mesin pencari konten tersebut akan sangat berbeda.
Penomoran halaman komentar
Ada opsi untuk membuat halaman komentar di sistem wordPRess atau program lain. Hal ini akan mengakibatkan duplikasi konten artikel di URL artikel itu sendiri dan URL artikel+/comment-page-1/, /comment-page-2/, dll.
Cetak halaman
Jika cms Anda menghasilkan halaman cetak dan tautan dari halaman artikel Anda, biasanya Google akan menemukan halaman ini kecuali Anda secara khusus mencegahnya. Versi manakah yang harus ditampilkan Google? Halaman dengan iklan dan konten di sekitarnya atau halaman yang hanya berisi artikel Anda.
WWW vs. non-WWW
Ini adalah pertanyaan lama, tetapi terkadang mesin pencari masih bingung membedakan konten duplikat WWW vs. non-WWW ketika kedua versi dapat diakses.
Situasi yang tidak biasa adalah konten duplikat http vs https.
Solusi konseptual tag "kanonik".
Seperti yang diidentifikasi di atas, duplikat konten yang dihasilkan dari URL berbeda untuk konten yang sama merupakan masalah, namun dapat diselesaikan. Manusia biasanya dapat dengan mudah memberi tahu Anda URL yang benar untuk sebuah artikel saat menerbitkan artikel. Lucunya terkadang Anda bertanya kepada 3 orang di perusahaan yang sama dan Anda mendapatkan 3 jawaban berbeda.
Ringkasan: Konten duplikat dapat dan harus diatasi
Dalam kasus ini masalahnya perlu diselesaikan karena pada akhirnya hanya ada satu URL. URL artikel yang benar dapat diberi nama Canonical oleh mesin pencari.
Identifikasi konten duplikat
Anda mungkin tidak tahu apakah Anda memiliki duplikat konten di situs Anda. Izinkan saya memberi Anda beberapa tip.
Alat Webmaster Google
Alat Webmaster Google adalah alat hebat untuk mengidentifikasi konten duplikat. Jika Anda membuka Alat Webmaster Google dan melihat situs Anda, periksa Diagnostik -> Saran HTML, Anda akan melihat sesuatu seperti ini
Jika suatu halaman memiliki judul duplikat atau deskripsi duplikat, hampir tidak ada hal baik yang terjadi di sana. Mengkliknya akan menunjukkan URL mana yang memiliki judul atau deskripsi duplikat untuk membantu Anda mengidentifikasi masalahnya. Masalahnya adalah jika Anda memiliki artikel tentang "kata kunci -X" yang ditampilkan dalam dua kategori, judulnya mungkin berbeda. Misalnya, judulnya adalah "Kata Kunci X - Kategori X - Situs Contoh" dan "Kata Kunci X - Kategori Y - Situs Contoh". Google tidak akan memperlakukannya sebagai judul duplikat, tetapi Anda dapat menemukannya dengan mencari.
Temukan judul atau fragmen lainnya
Ada beberapa operator pencarian yang sangat membantu dalam situasi ini. Jika Anda ingin mencari semua URL artikel di website Anda yang mengandung kata kunci "X", Anda dapat memasukkan perintah berikut di kotak pencarian Google:
site:example.com judul:"Kata Kunci X"
Salin kode
Google akan menampilkan semua halaman di example.com yang mengandung kata kunci tersebut. Semakin spesifik kata kunci yang Anda cari di bagian judul, semakin mudah menemukan duplikat konten dan menghilangkannya. Anda juga dapat menggunakan metode yang sama untuk mengidentifikasi duplikat konten Anda di situs web orang lain. Misal judul lengkap artikel Anda adalah Kata Kunci X - kenapa keren, Anda bisa mencarinya
intitle:"Kata Kunci X - mengapa ini luar biasa"
Salin kode
Google akan mengembalikan semua situs web yang mengandung judul ini. Terkadang Anda juga dapat mencari satu atau dua kalimat dalam artikel Anda, karena beberapa pengikis konten mungkin mengubah judul Anda. Dalam beberapa kasus, saat Anda melakukan penelusuran, Google mungkin menampilkan perintah berikut di akhir hasil:
Ini tandanya Google telah menghapus hasil data duplikat. Ini jelas tidak bagus. Anda dapat terus mengklik untuk melihat hasil lainnya untuk melihat apakah ini membantu Anda mengatasi masalah ini.
Langkah praktis mengatasi duplikat konten
Setelah Anda memutuskan URL mana yang harus dikanonikalisasi untuk artikel Anda, Anda harus memulai beberapa proses kanonikalisasi (oke, saya tahu saya bertele-tele dan telah mengatakan ini beberapa kali). Ini pada dasarnya berarti memberi tahu mesin pencari dan meminta mereka menemukan versi kanonik ini secepat mungkin. Berikut empat cara untuk mengatasi masalah ini:
1. Jangan membuat konten duplikat
2. Alihkan konten duplikat ke URL kanonik
3. Tambahkan tautan tag Canonical ke halaman duplikat
4. Tambahkan hyperlink ke URL kanonik pada halaman konten duplikat
menghindari duplikat konten
Untuk penyebab duplikat konten di atas, ada beberapa cara mudah untuk memperbaikinya.
1. ID Sesi di URL?
Biasanya Anda dapat membatalkannya di pengaturan sistem Anda
2. Ada halaman yang dicetak
Semua ini tidak diperlukan, Anda dapat menggunakan lembar gaya cetak
3. Gunakan pagination komentar di wordpress
Untuk masalah ini, bisakah Anda membatalkan pagination komentar di pengaturan?
4. Urutan parameter yang berbeda
Beritahu programmer Anda untuk membuat kode untuk mengurutkan dalam urutan yang sama (ini biasanya mengacu pada pabrik URL)
5. Masalah parameter pelacakan
Dalam kebanyakan kasus, Anda dapat menggunakan nilai hash # alih-alih parameter untuk melacak kampanye pemasaran
6. Masalah WWW vs non-WWW
Pilih versi yang Anda inginkan dan tetap gunakan pengalihan. Anda dapat mengaturnya di Alat Webmaster Google.
Jika masalah Anda tidak mudah diselesaikan, upaya untuk mencegah duplikat konten mungkin masih sepadan. Ini adalah solusi terbaik sejauh ini.
301 mengarahkan ulang konten duplikat
Dalam beberapa kasus, tidak mungkin untuk sepenuhnya mencegah konten artikel sistem yang Anda gunakan menghasilkan URL yang salah, namun Anda dapat mengalihkannya. Jika ini tidak masuk akal bagi Anda (dan saya mengerti), Anda harus ingat untuk menyebutkan hal ini kepada programmer Anda. Selain itu, jika Anda menyelesaikan masalah duplikat konten, pastikan Anda mengalihkan semua URL konten duplikat lama ke URL kanonik yang sesuai.
Gunakan rel = "Canonical"
Terkadang Anda tidak mau atau tidak bisa mengatasi masalah duplikat artikel, namun Anda harus tahu bahwa itu adalah URL yang salah. Untuk masalah khusus ini, mesin pencari juga memperkenalkan ini
Elemen kanonik. Bagian penempatannya di situs web Anda terlihat seperti ini:
<link rel="canonical" href=" http://example.com/keyword-x/"/ >
Di bagian href dari tag tautan Canonical, Anda menempatkan URL kanonik artikel dengan benar. Ketika Google atau mesin pencari lain yang mendukung atribut ini menemukan elemen tautan ini, itu akan membuat lompatan 301 yang lembut: itu juga akan melewati halaman Most. dari nilai tautan menuju ke URL kanonik Anda.
Proses ini akan lebih lambat dibandingkan pengalihan 301, jadi akan lebih baik jika Anda menggunakan 301 Google yang disebutkan John Mueller http://www.seroundtable.com/google-canonical-tag-vs-301-redirect-12611.html
Tautkan kembali ke versi asli Anda
Jika Anda tidak dapat melakukan hal di atas, Anda mungkin tidak memiliki kendali atas bagian "kepala" situs tempat konten ditampilkan, dan ada baiknya juga menambahkan tautan ke laman asli Anda di bagian atas atau bawah. halaman. Ada beberapa artikel lain yang ingin Anda tambahkan tautannya ke umpan RSS Anda. Beberapa perayap mungkin memfilter tautan ini, namun beberapa mungkin tetap berada di sana, dan jika Google menghitung beberapa tautan yang mengarah ke artikel Anda, Google juga akan segera mengetahui bahwa ini adalah versi kanonis artikel tersebut.
Ringkasan: Konten duplikat dapat dan harus diatasi
Duplikat konten terjadi dimana-mana. Saya belum pernah menemukan situs web dengan lebih dari 1000 halaman tanpa sedikit pun konten duplikat. Ini memerlukan perhatian Anda setiap saat. Ini bisa dipecahkan dan imbalannya bisa sangat besar. Peringkat halaman konten berkualitas tinggi Anda mungkin meroket setelah Anda mengatasi duplikat konten. Tentu saja, pertama-tama Anda perlu mengidentifikasi masalah ini, membantu pemrogram Anda menemukan solusi untuk masalah tersebut, dan bahkan membantu Anda memecahkan masalah tersebut.
Penulis terjemahan: zhipeng
Sumber artikel: Forum Lightyear ( http://www.gnbase.com/thread-474-1.html )
Teks asli bahasa Inggris: http://yoast.com/articles/duplikat-content/
Catatan: Artikel ini dicetak ulang di Beranda Webmaster dengan izin zhipeng, Lightyear Forum. Jika Anda perlu mencetak ulang, harap sebutkan sumber dan tautan artikel.