[Kata Pengantar] Sebenarnya ada banyak cara untuk mendapatkan data untuk analisis website. Misalnya, menggunakan data log server, atau menginstal beberapa perangkat lunak pemantauan pada klien. Metode perolehan data untuk analisis website menggunakan metode penandaan halaman berbeda dengan dua metode sebelumnya, namun begitu lahir, metode ini mengejutkan semua orang dan dengan cepat menjadi metode mainstream. Faktanya, hampir semua topik di blog saya ( http://www.chinawebanalytics.cn ) didasarkan pada markup halaman. Artikel hari ini akan mengajak teman-teman untuk sekali lagi memahami apa itu analisis situs web penandaan halaman, dan bagaimana data dalam laporan analisis situs web Omniture Site Catalyst atau Google Analytics yang kita baca setiap hari ditangkap.
Karena saya sedang dalam perjalanan bisnis, waktu saya untuk ngeblog lebih sedikit. Artikel ini adalah kutipan dari buku yang sedang saya tulis tentang dasar-dasar analisis situs web. Saya berharap buku ini akan tersedia untuk semua orang tahun depan.
【teks】
Dalam hal pengambilan data untuk analisis situs web, setiap orang harus memiliki pengetahuan awal terlebih dahulu, yaitu prinsip dasar analisis situs web markup halaman dan analisis situs web metode log sangat berbeda. Mengenai prinsip analisis website menggunakan metode log, silahkan baca postingan ini: Prinsip, Kelebihan dan Kekurangan Analisis Website Metode Log Server. Seorang teman sebelumnya meninggalkan pesan di Weibo, berpikir bahwa AWStats, Omniture, dan WebTrends semuanya adalah alat analisis log, tetapi Omniture menggunakan metode asp, jadi tidak ada bedanya. Pandangan ini sepenuhnya disalahpahami. Faktanya, ketiga alat tersebut berbeda. AWStats adalah alat analisis log, gratis. WebTrends awalnya merupakan alat analisis log murni, tetapi kemudian menambahkan fungsi Penandaan Halaman. Omniture SiteCatalyst lahir sebagai alat berbasis Page Tagging, dan sejauh ini Omniture belum memiliki alat untuk analisis log.
Oleh karena itu, hari ini kita hanya akan membahas tentang prinsip memperoleh data melalui analisis website menggunakan page tagging. Mari kita mulai dengan sebuah permainan.
Apa itu markup halaman
Apakah kalian semua pernah memainkan game StarCraft (StarCraft Generasi 1) dari Blizzard? Saya penggemar berat permainan ini. Ratu Zerg memiliki kemampuan khusus untuk menyemprotkan parasit pada unit aksi musuh. Dengan cara ini, kemanapun unit aksi pergi, situasi di sekitarnya dapat terlihat jelas oleh Zerg.
Atau, semua orang pernah ke bank. Kamera yang ditempatkan di mana-mana di bank sebenarnya merekam setiap gerakan yang kami lakukan, dan kemudian memindahkannya ke perangkat penyimpanan untuk disimpan.
Oleh karena itu, metafora yang tidak tepat, yang disebut page markup, ibarat parasit yang “disemprotkan” pada halaman, atau kamera yang dipasang pada halaman, merekam setiap gerak-gerik pengunjung di halaman tersebut, lalu meneruskannya ke relevan Organisasi atau individu yang perlu mengetahui tentang situs web ini.
Gambar di bawah mewakili proses ini:
Tag halaman seperti potongan merah kecil pada gambar. Ini sebenarnya adalah pernyataan program JavaScript yang dapat dijalankan oleh browser dan ditempatkan di file sumber HTML halaman. Dengan cara ini, ketika halaman diunduh ke browser klien, program Javascript yang ditandai di halaman ini akan dijalankan, seperti parasit di StarCraft, atau kamera dihidupkan.
Setelah kode JavaScript dari tanda halaman dijalankan, perilaku akses interaktif pengunjung pada halaman tersebut akan dikirim dengan setia dan terus menerus ke server alat analisis situs web yang sesuai dengan tanda halaman tersebut ke Server penyimpanan gambar persis sama. Setelah server alat analisis situs web menerima data, selanjutnya akan memproses data dan menerjemahkan data tersebut ke dalam grafik, tabel, dan file data yang dapat dibaca dan dianalisis orang, dan kemudian menyajikannya pada antarmuka pengguna yang indah. Google Analytics yang umum kami gunakan adalah metode pengumpulan data.
Seperti yang Anda lihat, metode penandaan halaman pada dasarnya berbeda dari metode pencatatan.
1. Metode logging adalah mengekstrak data dari file log untuk dianalisis; sedangkan tag halaman memerlukan penambahan "unit mata-mata" kecil secara artifisial ke halaman, yang berarti halaman tersebut harus bergantung pada pihak ketiga untuk mendapatkan data.
2. Karena "unit mata-mata" tambahan ini, metode penandaan halaman perlu mengubah file sumber HTML halaman, tetapi metode logging tidak.
3. Metode logging secara pasif menunggu Anda memproses data. Jika Anda tidak memprosesnya, data akan menjadi catatan yang setia dan kaku. Metode penandaan halaman secara aktif mengirimkan data dan secara otomatis akan memproses data terlebih dahulu dan menunggu Anda. untuk menganalisis.
Mari kita bicara sedikit tentang sejarah di sini. Pada masa-masa awal Internet, situs web berukuran kecil dan strukturnya sederhana, dan metode logging mendominasi dunia. Namun, Internet berkembang terlalu cepat, dan perangkat lunak, perangkat keras, dan arsitektur logis situs web dengan cepat menjadi semakin banyak Ada banyak permasalahan yang perlu diatasi dengan metode logging. Kesulitannya semakin meningkat, kesulitan implementasinya meningkat secara eksponensial, dan masyarakat perlu menemukan cara yang lebih mudah untuk mencapainya. Dengan popularitas JavaScript dan munculnya SaaS (Perangkat Lunak sebagai Layanan, Perangkat Lunak sebagai Layanan), metode markup halaman muncul. Metode ini mudah diterapkan, dan tidak perlu berurusan dengan catatan file log yang besar, pengelolaan data dan Efisiensi pemrosesan telah meningkat pesat, dan dengan cepat menjadi pilihan pertama banyak webmaster. Justru karena banyak kelebihannya, seperti kesederhanaan, keterbacaan data yang tinggi, dan kesulitan manajemen yang rendah, metode penandaan halaman telah menjadi metode akuisisi data utama dalam ilmu analisis situs web. Blog saya juga berfokus sepenuhnya pada metode ini daripada metode Logging akan dibahas secara detail.
Bacaan menarik: Perbedaan antara kode pemantauan dan tag pemantauan
Dalam aktivitas praktik khusus analisis situs web, kami sering menggabungkan dua metode tag pelacakan yang berbeda - Kode Pelacakan dan Tag Pelacakan. Namun sebenarnya keduanya adalah hal yang berbeda, dan jika kita dapat membedakannya dengan tepat, ini akan membantu kita berkomunikasi dengan lebih akurat.
Kode mengacu pada pernyataan dalam program yang dapat dieksekusi, sehingga kode pemantauan mengacu pada pernyataan program yang dapat dieksekusi yang ditulis untuk tujuan pemantauan. Kode pemantauan yang paling umum adalah kode pemantauan JavaScript Google Analytics yang kami tambahkan ke halaman.
Tag mengacu pada pengidentifikasi yang ditambahkan untuk mengidentifikasi objek pemantauan. Pengidentifikasi ini bukan pernyataan program dan tidak dapat dijalankan, tetapi dapat dikenali oleh program dan digunakan untuk menentukan atribut spesifik dari objek pemantauan. Misalnya, ini adalah URL: http://www.chinawebanalytics.cn/?utm_campaign=newbook&utm_source=tsinghua&utm_medium=PRess , "?utm_campaign=newbook&utm_source=tsinghua&utm_medium=press" adalah label. Tag juga bisa berupa URL lengkap.
Sederhananya, program yang dapat dijalankan adalah kode monitoring, dan program yang tidak dapat dijalankan adalah label monitoring.
Cara kerja metode markup halaman
Kita telah memahami prinsip dasar metode markup halaman, dan sekarang kita perlu mempelajari secara detail bagaimana markup halaman dapat mengumpulkan, mengirimkan, dan akhirnya menyajikan data kepada kita. Memahami proses ini sangat membantu kita untuk melakukan implementasi pemantauan khusus analisis website.
Langkah 1: Kode pemantauan halaman dimuat dan dijalankan oleh browser
Prasyarat agar metode penandaan halaman berfungsi dengan baik adalah menambahkan sepotong kode pemantauan JavaScript ke setiap halaman yang perlu dipantau di situs web. Saat pengguna membuka halaman ini, server (atau Cache) akan merespons permintaan pengguna, dan kemudian meneruskan halaman tersebut, bersama dengan kode pemantauan, ke browser pengguna. Saat browser pengguna menerima kode pemantauan, browser akan mulai mengeksekusi kode tersebut.
Langkah 2, jalankan kode pemantauan lengkap
Setelah kode pemantauan pada halaman dijalankan, ia tidak merealisasikan semua fungsi pemantauan, melainkan meminta kode pemantauan lengkap dari server alat analisis situs web yang sesuai. Pernyataan kode pemantauan lengkap jumlahnya banyak, sehingga dikumpulkan ke dalam file .js dan disimpan di luar halaman web. Setelah kode eksternal menerima permintaan dari kode pemantauan halaman, kode tersebut juga akan diteruskan ke browser dan dieksekusi oleh browser. Dengan cara ini, fungsi pemantauan yang lengkap dapat diwujudkan.
Mengambil pemantauan GA dari blog saya sendiri (CWA, Web Analytics di China, http://www.chinawebanalytics.cn ) sebagai contoh, selama eksekusi kode pemantauan lengkap, beberapa hal akan terjadi:
1. Mendeteksi berbagai atribut klien, termasuk versi browser, versi sistem operasi, resolusi layar, dll., dan mencatat waktu spesifik kapan akses halaman terjadi, sumber akses (Sumber Lalu Lintas), dll.
2. Buat cookie untuk browser pengguna ini. Apa itu cookie? Silakan lihat postingan ini: Membela Cookie - Tanpa Cookie, Kami Tidak Memiliki Apa-apa, dan postingan ini: Seberapa Besar Dampak JavaScript dan Cookie terhadap GA? . Jika Anda tidak ingin membaca kedua artikel tersebut, tidak masalah. Sederhananya, fungsi cookies adalah untuk mencatat informasi penting terkait kunjungan pengguna ke situs ini lagi. catatan dalam cookie akan digunakan sebagai yang baru. Referensi catatan penjelajahan memungkinkan alat analisis situs web untuk menentukan apakah kunjungan ini merupakan kunjungan berulang, apakah pengunjung tersebut adalah pengunjung baru, dan banyak data penting lainnya. Cookie diperlukan dalam metode deteksi markup halaman, yang berarti jika browser menonaktifkan cookie, metode markup halaman tidak akan berfungsi. Untuk mengetahui tentang pengaturan cookie Google Analytics, silakan lihat artikel ini: Metrik Analisis Situs Web, Artinya, dan Yang Tidak Anda Ketahui (2).
3. Jika cookie telah diatur untuk browser pengunjung ini sebelumnya, kode pemantauan akan menulis ulang bagian data cookie lama yang perlu diperbarui, sehingga memastikan bahwa setiap cookie mencatat data perilaku akses yang sesuai.
Langkah 3: Kirim data ke server alat analisis situs web
Ketika kode pemantauan telah mengumpulkan semua informasi, kode tersebut akan mengirimkan data yang relevan kembali ke server alat analisis situs web. Metode transmisinya bukan dengan mengirim data secara langsung (yaitu tidak menggunakan metode posting. Jika Anda tidak memahami metode posting dan dapatkan dalam protokol HTTP, Anda dapat melewati konten dalam tanda kurung), tetapi untuk mengirim data ke server alat analisis website. Caranya dengan meminta gambar GIF transparan berukuran 1×1 piksel (artinya masih menggunakan metode get, jika kurang paham silakan lewati saja). Tampaknya agak aneh, bukan? Faktanya, saat mengeluarkan permintaan 1×1 piksel ini, semua data yang dikumpulkan dikirim ke server alat analisis sebagai parameter yang relevan dari permintaan ini, sehingga alat analisis dapat memperoleh dan menyimpan data yang relevan.
Langkah 4, server alat analisis situs web mencatat data
Setelah server alat analisis website menerima data, maka akan menyimpan data tersebut dalam file data yang besar. Cara pencatatan file data ini sangat mirip dengan file log (File Log) yang kami sebutkan sebelumnya Itu adalah Log File, namun bedanya Log File di sini tidak berisi data pengoperasian server alat analisis website itu sendiri, melainkan data website yang dipantau.
Setiap baris data (entri data) dalam file File Log ini berisi banyak informasi tentang tampilan halaman tertentu (Tampilan Halaman), termasuk namun tidak terbatas pada hal berikut (ambil file catatan File Log Google Analytics sebagai contoh):
1. Tanggal dan waktu terjadinya akses halaman;
2. Judul halaman yang dikunjungi;
3. Sumber pengunjung (baik yang tertaut dari website tertentu, melalui mesin pencari, melalui akses langsung, dan sebagainya);
4. Berapa kali pengunjung mengunjungi situs web ini;
5. Lokasi geografis alamat IP pengunjung;
6. Atribut klien pengunjung, seperti sistem operasi, browser, resolusi layar, dll.
Setelah catatan ini disertakan dalam log server alat analisis, proses pengumpulan data selesai. Contoh berikut adalah deretan data yang tercatat di server Google Analytics (perlu diperhatikan bahwa ini bukan data sebenarnya):
123.121.215.51 www.chinawebanalytics.cn – [31/Jan/2010:20:45:26 -0600] "DAPATKAN
/__utm.gif?utmwv=1&utmn=699988832&utmcs=utf-8&utmsr=1680×1050&utmsc=32-bit&utmul=enus&
utmje=1&utmfl=8.0&utmcn=1&utmdt=%E7%BD%91%E7%AB%99%E5%88%86%E6%9E%90%E5%9C
%A8%E4%B8%AD%E5%9B%BD%E2%80%94%E2%80%94%E4%BB%8E%E5%9F%BA%E7%A1%80
%E5%88%B0%E5%89%8D%E6%B2%BF&utmhid=2006742654&utmr=-
&utmp=/ HTTP/1.1" 200 35 " http://www.chinawebanalytics.cn/ " "Mozilla/5.0 (kompatibel; MSIE 6.0;
Windows NT 5.1;
"__utma=453698521.699988832.235456888.235456888.235456888.1; __utmb=453698521;
__utmc=453698521;
__utmz=453698521.235456888.1.1.utmccn=(langsung)|utmcsr=(langsung)|utmcmd=(tidak ada)"
Data di atas terkesan berantakan, namun nyatanya ada beberapa petunjuk yang bisa dilihat. Misalnya, kita dapat melihat alamat IP pengunjung adalah 123.121.215.51, domain yang dikunjungi adalah blog saya www.chinawebanalytics.cn , dan waktu dimulainya kunjungan adalah 20:45:26 malam pada tanggal 31 Januari 2010. Selain itu, jika ditengok ke belakang, Anda juga dapat melihat informasi mengenai sistem operasi dan browser yang digunakan pengunjung.
Adapun kepanjangan dari utma, utmb, utmc dan utmz, Anda akan memahaminya setelah membaca artikel ini: Pengukuran analisis situs web, signifikansi dan tidak diketahui (2).
Langkah 5, alat analisis situs web memproses data
Setelah data dicatat dalam File Log server alat analisis situs web, jalur pipa akan terus turun. Langkah selanjutnya adalah memproses baris catatan dalam File Log ini. Setiap baris catatan berisi elemen data tertentu, yang disebut bidang, seperti IP pengunjung, waktu akses, browser dan versinya, dll. Elemen data ini akan dipecah secara terpisah dan kemudian disimpan di bidang yang sesuai, menjadi "produk setengah jadi" untuk tampilan akhir data kami.
Kemudian, data setengah jadi akan disaring lebih lanjut dengan kriteria yang ditetapkan secara artifisial di alat analisis situs web. Bidang data yang tidak dapat disaring akan dikecualikan, dan data yang tersisa akan disusun lebih lanjut dalam proyek yang disiapkan untuk menghasilkan laporan. Semua data ini disimpan dalam database khusus alat analisis situs web, menunggu untuk diekstraksi dan digunakan kapan saja.
Langkah 6, buat laporan
Ketika data telah diproses, seluruh proses akan segera berakhir. Jika pengguna meminta laporan tertentu menggunakan alat analisis situs web, bidang data dihitung lebih lanjut, disusun, dan disusun menjadi proyek sebagai persiapan untuk menghasilkan laporan, disusun dalam format yang telah ditentukan sebelumnya (atau ditentukan pengguna). Kita tidak dapat melihat proses ini, tetapi mengandung kehalusan algoritma alat analisis situs web. Selain itu, definisi algoritma juga mempengaruhi definisi beberapa metrik analisis situs web dasar, yang secara langsung mempengaruhi keluaran nilai dasar sebenarnya. metrik. Ini juga merupakan alasan penting mengapa alat analisis situs web yang berbeda memberikan nilai yang berbeda ketika menghitung situs web yang sama.
Selanjutnya, item data yang telah disiapkan selanjutnya didorong ke server UI alat situs web (Antarmuka Pengguna) untuk menghasilkan grafik, tabel, dan gambar tertentu, yang kemudian dikeluarkan lebih lanjut ke browser pengguna atau klien, dan menjadi laporan yang kami dapat dengan mudah memahaminya.
Keseluruhan prosesnya sebenarnya tidak rumit, namun alat analisis situs web akan menghadapi pemrosesan data dalam jumlah besar. Terutama ketika lalu lintas situs web sangat besar, alat analisis situs web akan menanggung beban yang berat. Inilah sebabnya mengapa banyak alat analisis situs web penandaan web mengenakan biaya berdasarkan lalu lintas situs web yang dipantau.
Keuntungan menggunakan metode penandaan halaman untuk analisis situs web
Penandaan halaman memiliki banyak keuntungan, menjadikannya metode utama dalam memperoleh data untuk analisis situs web.
1. Tidak takut dengan dampak cache
Berbeda dengan metode logging yang takut akan dampak caching, metode markup halaman tidak perlu mengkhawatirkan caching sama sekali. Karena kode markup halaman ditempatkan di file sumber halaman, meskipun halaman di-cache oleh server proxy atau disimpan oleh cache browser klien, kode markup halaman juga akan disimpan dan akan disertakan saat browser memuat halaman.
Oleh karena itu, jika Anda memasukkan beberapa halaman situs web secara berurutan, lalu mengklik tombol "Kembali" pada browser untuk kembali ke halaman sebelumnya, maka di bawah metode penandaan halaman, tindakan kembali ke halaman sebelumnya akan menambah halaman dengan satu "Tampilan Halaman"; namun, dalam metode file log, tampilan halaman baru mungkin tidak direkam karena dampak cache. Dengan cara ini, metode penandaan halaman dapat mencatat perjalanan pengunjung dengan lebih akurat.
2. Kemampuan untuk merekam “interaksi klien”
Seperti disebutkan sebelumnya, markup halaman diimplementasikan dengan mengeksekusi kode JavaScript pada klien. Oleh karena itu, secara teori, "setiap gerakan" pada halaman yang dibuka oleh browser dapat direkam. Untuk jenis "interaksi sisi klien" Flash, JavaScript atau aplikasi web2.0 lainnya, markup halaman juga dapat menandai berbagai interaksi aplikasi ini, dan kemudian secara akurat mencatat terjadinya interaksi ini.
Ketika halaman web menjadi lebih interaktif, keuntungan dari markup halaman akan menjadi sangat jelas. Selain itu, sudah banyak alat yang menggunakan markup halaman untuk secara langsung melayani interaksi klien di halaman tersebut, yang menunjukkan bahwa pemantauan interaksi klien Persyaratannya tidak lagi. opsional dan telah menjadi bagian penting dalam mengukur kinerja situs web.
3. Catatan pengunjung yang relatif akurat
Penandaan halaman bergantung pada cookie untuk mencatat dan mengidentifikasi informasi pengunjung. Beberapa alat penandaan halaman menggunakan cookie dan IP untuk bersama-sama mengidentifikasi informasi pengunjung, sedangkan metode pencatatan hanya mengandalkan alamat IP tertentu.
Perlu ditekankan bahwa penggunaan metode cookie untuk mengidentifikasi informasi pengunjung juga tidak mungkin 100% akurat (pada kenyataannya, kesempurnaan tidak ada. Stephen Hawking mengatakan bahwa kesempurnaan 100% tidak ada di alam semesta. Jika tidak, alam semesta tidak akan ada). ada), tetapi dibandingkan dengan hanya mengandalkan alamat IP, cookie menambahkan mekanisme identifikasi, dan mekanisme ini digabungkan dengan browser klien dan menyimpan lebih banyak informasi identifikasi, sehingga pengunjung yang menggunakan cookie untuk mencatat Catatan tersebut pasti lebih akurat daripada Jumlah pengunjung IP. Agar adil, hingga ditemukan metode baru (yang belum pernah terdengar sebelumnya), metode penandaan halaman menggunakan teknologi cookie dapat memberikan data pengunjung paling akurat saat ini.
Selain itu, metode penandaan halaman tidak terpengaruh oleh robot atau laba-laba yang mengunjungi situs web untuk merayapi data situs web. Oleh karena itu, tidak termasuk kecurangan yang berbahaya, dapat dianggap bahwa semua data yang dicatat dengan metode ini adalah data "orang" yang berkunjung situs web. Khusus untuk website non-komersial seperti blog saya sendiri, saya tidak terlalu peduli dengan robot yang merayapi website saya. Namun, jika Anda memiliki kebutuhan SEO yang sangat canggih, maka Anda harus menggunakan perangkat lunak analisis log untuk melihat situs web robot mesin pencari.
4. Performa real-time yang lebih baik
Seperti metode logging, metode penandaan halaman juga mengumpulkan data secara real time. Kunjungan terjadi, memicu markup pada halaman, dan data diambil dan dikirim ke server alat. Namun berbeda dengan metode log, pengolahan data pada metode log tidak bersifat real-time. Setelah data metode penanda halaman dikirimkan ke server alat, data tersebut diproses dalam waktu singkat (bahkan secara real-time) dan kemudian terbentuk. sebuah laporan. Oleh karena itu, metode penandaan halaman memiliki kinerja real-time yang cukup baik. Misalnya, laporan data SiteCatalyst Omniture hanya mengalami penundaan beberapa jam; dulu, Google Analytics mengalami penundaan satu hingga dua hari, namun sekarang hanya beberapa jam diperkirakan.
5. Masalah penyimpanan dan transfer data tidak ada lagi
Berbeda dengan metode logging yang memerlukan penyimpanan file log dalam jumlah besar, data metode markup halaman dapat disimpan seluruhnya di server penyedia alat analisis situs web (server alat) jika diinginkan, yang berarti tambahan biaya perangkat keras dan biaya membeli perangkat penyimpanan log. Biaya perangkat lunak untuk mengelola file log hilang. Selain itu, masalah yang juga disimpan adalah pekerjaan memasukkan file log ke dalam perangkat lunak analisis file log. Terkadang, pekerjaan ini tidak sesederhana menggunakan mouse untuk mengklik file di antarmuka impor alat, tetapi memerlukan pengembangan Program khusus. Selain itu, ketika ada server mirror dan situasi lainnya, metode markup halaman sebenarnya dapat diabaikan, namun metode log tidak sesederhana itu dalam menggabungkan data.
Oke, pekerjaan rumah minggu ini sudah diserahkan kepada semua orang, dan sekarang giliran semua orang. Saya sangat ingin melihat komentar dan komentar Anda. Saya mengucapkan selamat minggu baru kepada Anda semua!
Penulis: Lagu Xing
Sumber artikel: http://www.chinawebanalytics.cn/pag-tagging-data-acquire/