[はじめに] ウェブサイト分析のためのデータを取得する方法は、実はたくさんあります。たとえば、サーバーのログ データを使用したり、クライアントに監視ソフトウェアをインストールしたりします。ページタグ付けによるWebサイト分析用データの取得方法は、これまでの2つの方法とは異なりますが、誕生すると衝撃を与え、瞬く間に主流となりました。実際、私のブログ ( http://www.chinawebanalytics.cn ) のほとんどすべてのトピックはページ マークアップに基づいています。今日の記事では、ページタグ付け Web サイト分析とは何なのか、そして私たちが毎日読んでいる Omniture Site Catalyst または Google Analytics Web サイト分析レポートのデータがどのように取得されるのかをもう一度理解してもらいます。
出張中のため、ブログを書く時間があまりありません。この記事は、ウェブサイト分析の基礎について私が現在執筆中の書籍からの抜粋です。来年、この本が皆さんの手元に届くことを願っています。
【文章】
Web サイト分析のためのデータ収集に関しては、誰もがまず予備知識を持っておく必要があります。それは、ページマークアップ Web サイト分析とログ方式 Web サイト分析の基本原理はまったく異なるということです。ログ手法を使用した Web サイト分析の原理については、「サーバー ログ手法による Web サイト分析の原理、メリット、デメリット」の記事を参照してください。友人は以前、AWStats、Omniture、WebTrends はすべてログ分析ツールであると考えていると Weibo にメッセージを残しましたが、Omniture は ASP 方式を使用しているため、違いはありません。この見方は完全に誤解されています。実際、3 つのツールはすべて異なります。 AWStats は無料のログ分析ツールです。 WebTrends は当初純粋なログ分析ツールでしたが、後にページ タグ付けの機能が追加されました。 Omniture SiteCatalyst はページのタグ付けをベースにしたツールとして誕生しましたが、今のところ Omniture にはログ分析のためのツールがありません。
したがって、今日はページのタグ付けを使用した Web サイト分析を通じてデータを取得する原理についてのみ説明します。ゲームから始めましょう。
ページマークアップとは何ですか
皆さんはBlizzardのゲーム「StarCraft(StarCraft Generation 1)」をプレイしたことがありますか?私はこのゲームの大ファンです。ザーグの女王は、敵のアクションユニットに寄生虫をスプレーする特別な能力を持っています。このように、アクションユニットがどこに行っても、その周囲の状況がザーグによってはっきりとわかります。
あるいは、誰もが銀行に行ったことがあるでしょう。銀行内のあらゆる場所に設置されたカメラが、私たちのあらゆる動きを実際に撮影し、それを記憶装置に転送して保存しました。
したがって、不適切な比喩、いわゆるページ マークアップは、ページ上に「スプレー」される寄生虫、またはページ上に設置されたカメラのようなもので、ページ上の訪問者のあらゆる動きを記録し、それをページに渡します。関連性 この Web サイトについて知る必要がある組織または個人。
以下の図はこのプロセスを表しています。
ページ タグは、図の小さな赤い部分のようなもので、実際にはブラウザで実行できる JavaScript プログラム ステートメントであり、ページの HTML ソース ファイルに配置されます。このようにして、ページがクライアントのブラウザにダウンロードされると、StarCraft の寄生虫のように、このページでマークされた Javascript プログラムが実行されるか、カメラがオンになります。
ページマークのJavaScriptコードが実行されると、そのページ上での訪問者のインタラクティブなアクセス行動が忠実かつ継続的にページマークに対応するWebサイト解析ツールのサーバーに送信されます。これはカメラが撮影した画像を送信するのと同じです。画像保管サーバーは全く同じです。 Web サイト分析ツールのサーバーはデータを受信すると、さらにデータを処理し、ユーザーが読み取って分析できるグラフィックス、表、データ ファイルに変換して、美しいユーザー インターフェイスに表示します。私たちが一般的に使用している Google Analytics は、このようなデータ収集方法です。
ご覧のとおり、ページのマーキング方法はロギング方法とは根本的に異なります。
1. ロギング方法は分析のためにログ ファイルからデータを抽出することですが、ページ タグでは小さな「スパイ ユニット」をページに人為的に追加する必要があるため、データの取得にはサードパーティに依存する必要があります。
2. この追加の小さな「スパイ ユニット」のため、ページ マーキング メソッドではページの HTML ソース ファイルを変更する必要がありますが、ロギング メソッドでは変更が必要ありません。
3. ロギング メソッドは、ユーザーがデータを処理するのを受動的に待ちます。ユーザーがデータを処理しない場合、データは忠実かつ厳格なレコードとしてアクティブに送信され、データを自動的に前処理して待ちます。分析すること。
ここで少し歴史について話しましょう。インターネットの初期には、Web サイトのサイズは小さく、構造が単純で、ログ記録方式が世界を支配していました。しかし、インターネットの発展が速すぎたため、Web サイトのソフトウェア、ハードウェア、論理アーキテクチャは急速に多様化しました。ロギング方法には克服しなければならない問題が数多くあり、その難しさはますます増大しており、それを達成するためのより簡単な方法を見つける必要があります。 JavaScript の普及と SaaS (Software as a Service、Software as a Service) の出現により、この方法は実装が簡単で、大量のログ ファイル レコードやデータ管理に対処する必要がなくなりました。処理効率が大幅に向上し、すぐに多くのウェブマスターの最初の選択肢になりました。シンプルさ、データの可読性の高さ、管理の難易度の低さなど、多くの利点があるため、ページ タグ付け手法は、Web サイト分析の科学において主流のデータ取得手法となっています。私のブログでも、ロギング手法ではなく、この手法に全面的に焦点を当てています。について詳しく説明します。
興味深い内容: 監視コードと監視タグの違い
Web サイト分析の具体的な実践活動では、トラッキング コードとトラッキング タグという 2 つの異なるトラッキング タグ手法を混合することがよくあります。しかし、実際にはそれらは異なるものであり、これらを厳密に区別できれば、より正確なコミュニケーションが可能になります。
コードは実行可能プログラム内のステートメントを指します。したがって、監視コードは監視を目的として作成された実行可能プログラムのステートメントを指します。最も典型的な監視コードは、ページに追加する Google Analytics JavaScript 監視コードです。
タグとは、監視オブジェクトを識別するために追加される識別子を指します。この識別子はプログラム文ではないため実行できませんが、プログラムによって認識され、監視オブジェクトの特定の属性を決定するために使用されます。たとえば、これは URL です: http://www.chinawebanalytics.cn/?utm_campaign=newbook&utm_source=tsinghua&utm_medium=PRess 、「?utm_campaign=newbook&utm_source=tsinghua&utm_medium=press」はラベルです。タグは完全な URL にすることもできます。
簡単に言うと、実行できるプログラムが監視コード、実行できないプログラムが監視ラベルです。
ページマークアップ方法の仕組み
ページ マークアップ手法の基本原理はすでに理解しました。次に、ページ マークアップがどのようにデータを収集、送信し、最終的にデータを提示するのかを詳しく学ぶ必要があります。このプロセスを理解することは、Web サイト分析の具体的な監視実装を実行するのに非常に役立ちます。
ステップ 1: ページ監視コードがブラウザによってロードされ、実行されます。
ページのタグ付け方法が適切に機能するための前提条件は、Web サイト上で監視する必要があるすべてのページに JavaScript 監視コードを追加することです。ユーザーがこのページを開くと、サーバー (またはキャッシュ) がユーザーのリクエストに応答し、ページを監視コードとともにユーザーのブラウザに渡します。ユーザーのブラウザが監視コードを受信すると、コードの実行が開始されます。
ステップ 2、完全な監視コードを実行する
ページ上の監視コードが実行されると、すべての監視機能が実現されるわけではなく、対応する Web サイト分析ツールのサーバーに完全な監視コードが要求されます。完全な監視コード ステートメントは量が多いため、.js ファイルに収集され、Web ページの外部に保存されます。外部コードがページ監視コードからリクエストを受信すると、そのリクエストもブラウザに渡され、ブラウザによって実行されます。このようにして、完全な監視機能を実現できます。
私自身のブログ (CWA、中国の Web Analytics、 http://www.chinawebanalytics.cn ) の GA モニタリングを例として挙げると、完全なモニタリング コードの実行中に、いくつかのことが起こります。
1. ブラウザのバージョン、オペレーティングシステムのバージョン、画面解像度などのクライアントのさまざまな属性を検出し、ページアクセスが発生した具体的な時間やアクセス元(トラフィックソース)などを記録します。
2. このユーザーのブラウザ用の Cookie を作成します。クッキーとは何ですか?この投稿を参照してください: Cookie の防御 - Cookie がなければ何もありません。およびこの投稿: JavaScript と Cookie は GA にどのくらい影響しますか? 。これら 2 つの記事を読みたくない場合は、問題ありません。簡単に言うと、Cookie の機能は、ユーザーが次回この Web サイトを閲覧したときに、その Web サイトに関連する重要な情報を記録することです。 Cookie 内の記録は、新しい訪問者として使用されます。閲覧記録を参照すると、Web サイト分析ツールは、この訪問が繰り返し訪問であるかどうか、訪問者が新規訪問者であるかどうか、およびその他の多くの重要なデータを判断できます。ページ マークアップ検出メソッドには Cookie が必要です。つまり、ブラウザが Cookie を無効にすると、ページ マークアップ メソッドは機能しなくなります。 Google Analytics の Cookie 設定について詳しくは、「Web サイト分析の指標、その意味、およびわからないこと (2)」の記事を参照してください。
3. 以前にこの訪問者のブラウザに Cookie が設定されていた場合、監視コードは古い Cookie データの更新が必要な部分を書き換え、各 Cookie が対応するアクセス動作データを記録するようにします。
ステップ 3: Web サイト分析ツールのサーバーにデータを送信する
監視コードがすべての情報を収集すると、関連データが Web サイト分析ツールのサーバーに送信されます。送信方法は、データを直接送信するのではなく(つまり、post メソッドを使用しません。HTTP プロトコルの post メソッドと get メソッドを理解していない場合は、括弧内の内容を読み飛ばしてください)、これは、1×1 ピクセルの透明 GIF 画像をリクエストすることによって行われます (つまり、引き続き get メソッドを使用します。理解できない場合はスキップしてください)。少し奇妙に思えますよね?実際、この 1×1 ピクセルのリクエストを発行すると、収集されたすべてのデータがこのリクエストの関連パラメーターとして分析ツールのサーバーに送信され、分析ツールが関連データを取得して保存できるようになります。
ステップ 4、Web サイト分析ツールのサーバーがデータを記録する
Web サイト分析ツール サーバーはデータを受信すると、そのデータを大きなデータ ファイルに保存します。このデータ ファイルの記録方法は、前述したログ ファイル (ログ ファイル) とよく似ています。ログファイルですが、ここでのログファイルにはWebサイト解析ツールサーバー自体の稼働データではなく、監視対象のWebサイトのデータが含まれる点が異なります。
このログ ファイル ファイルの各データ行 (データ エントリ) には、特定のページ ビュー (PageView) に関する多くの情報が含まれています。これには次の情報が含まれますが、これらに限定されません (例として Google Analytics ログ ファイル レコード ファイルを取り上げます)。
1. ページアクセスが発生した日時。
2. アクセスしたページのタイトル。
3. 訪問者のソース (特定の Web サイトからのリンク、検索エンジン経由、直接アクセスなどによるリンクかどうか)。
4. この訪問者がこのウェブサイトを訪問した回数。
5. 訪問者の IP アドレスの地理的位置。
6. 訪問者のクライアント属性(オペレーティング システム、ブラウザ、画面解像度など)
これらのレコードが分析ツール サーバーのログに含まれると、データ収集プロセスは完了します。次の例は、Google Analytics サーバーに記録されたデータの行です (実際のデータではないことに注意してください)。
123.121.215.51 www.chinawebanalytics.cn – [2010/01/31:20:45:26 -0600] "GET
/__utm.gif?utmwv=1&utmn=699988832&utmcs=utf-8&utmsr=1680×1050&utmsc=32-bit&utmul=enus&
utmje=1&utmfl=8.0&utmcn=1&utmdt=%E7%BD%91%E7%AB%99%E5%88%86%E6%9E%90%E5%9C
%A8%E4%B8%AD%E5%9B%BD%E2%80%94%E2%80%94%E4%BB%8E%E5%9F%BA%E7%A1%80
%E5%88%B0%E5%89%8D%E6%B2%BF&utmhid=2006742654&utmr=-
&utmp=/ HTTP/1.1" 200 35 " http://www.chinawebanalytics.cn/ " "Mozilla/5.0 (互換性; MSIE 6.0;
Windows NT 5.1; .NET CLR 1.1.4327;
"__utma=453698521.699988832.235456888.235456888.235456888.1; __utmb=453698521;
__utmc=453698521;
__utmz=453698521.235456888.1.1.utmccn=(直接)|utmcsr=(直接)|utmcmd=(なし)"
上記のデータは乱雑に見えますが、実際にはいくつかの手がかりが見られます。たとえば、訪問者の IP アドレスは 123.121.215.51、訪問したドメインは私のブログwww.chinawebanalytics.cn 、訪問が開始された時刻は 2010 年 1 月 31 日の午後 8:45:26 であることがわかります。さらに、過去に遡ると、訪問者が使用しているオペレーティング システムやブラウザに関する情報も確認できます。
utma、utmb、utmc、utmz がそれぞれ何を表すかについては、この記事「Web サイト分析測定、重要性、不明 (2)」を読むと理解できます。
ステップ 5、Web サイト分析ツールがデータを処理する
Web サイト分析ツール サーバーのログ ファイルにデータが記録されると、パイプラインはダウンし続けます。次のステップは、これらのログ ファイルのレコード行を処理することです。各レコード行には、訪問者 IP、アクセス時間、ブラウザとそのバージョンなどのフィールドと呼ばれる特定のデータ要素が含まれています。これらのデータ要素は個別に分割されます。その後、対応するフィールドに保存され、データを最終的に表示するための「半完成品」になります。
次に、Web サイト分析ツールで人為的に設定された基準によって中途半端なデータがさらにフィルタリングされ、フィルタリングできないデータ フィールドが除外され、残りのデータがレポート生成用に準備されたプロジェクトにさらに配置されます。これらのデータはすべて、Web サイト分析ツールの専用データベースに保存され、いつでも抽出されて使用されるのを待っています。
ステップ 6、レポートの生成
データが処理されると、プロセス全体が終了します。ユーザーが Web サイト分析ツールを使用して特定のレポートを要求した場合、データ フィールドはさらに計算され、整理され、レポートを生成する準備としてプロジェクトに配置され、事前定義 (またはユーザー定義) 形式で整理されます。このプロセスは目に見えませんが、Web サイト分析ツールのアルゴリズムの繊細さが含まれており、さらに、アルゴリズムの定義はいくつかの基本的な Web サイト分析指標の定義にも影響し、基本的な指標の実際の値の出力に直接影響します。メトリクス。これは、同じ Web サイトをカウントするときに、異なる Web サイト分析ツールが異なる値をもたらす重要な理由でもあります。
その後、準備されたデータ項目はさらに Web サイト ツールの UI (ユーザー インターフェイス) のサーバーに転送されて、特定のグラフ、表、図が生成され、さらにユーザーのブラウザーまたはクライアントに出力され、レポートとなります。簡単に理解できます。
実際のプロセス全体は複雑ではありませんが、Web サイト分析ツールは大量のデータ処理に直面し、特に Web サイトのトラフィックが特に大きい場合、Web サイト分析ツールには大きな負荷がかかります。多くの Web タグ付け Web サイト分析ツールが、監視対象の Web サイトのトラフィックに基づいて料金を請求するのはこのためです。
Webサイト分析にページタグ付け手法を使用するメリット
ページのタグ付けには多くの利点があるため、Web サイト分析用のデータを取得する主流の方法となっています。
1. キャッシュへの影響を恐れない
キャッシュの影響を懸念するロギング方式とは対照的に、ページ マークアップ方式はキャッシュをまったく気にする必要がありません。ページ マークアップのコードはページ ソース ファイルに配置されるため、ページがプロキシ サーバーによってキャッシュされているか、クライアントのブラウザ キャッシュによって保存されている場合でも、ページ マークアップのコードも保存され、ブラウザが開くときに含まれます。実行されるページを読み込みます。
そのため、ウェブサイトの複数のページを連続して入力し、ブラウザの「戻る」ボタンをクリックして前のページに戻ると、ページマーキング方式では、前のページに戻る行為によりページが増えてしまいます。ただし、ログファイル方式ではキャッシュの影響により新たなページビューが記録されない場合があります。このように、ページのタグ付け方法により、訪問者の行動をより正確に記録できます。
2.「クライアントとのやり取り」を記録する機能
前述したように、ページのマークアップはクライアント上で JavaScript コードを実行することによって実装されるため、理論上はブラウザーによって開かれたページ上の「すべての動き」を記録できます。 「クライアント側インタラクション」タイプの Flash、JavaScript、またはその他の Web2.0 アプリケーションの場合、ページ マークアップはこれらのアプリケーションのさまざまなインタラクションをマークし、これらのインタラクションの発生を正確に記録することもできます。
Web ページがますますインタラクティブになるにつれて、ページ マークアップの利点は非常に明白になります。さらに、ページ マークアップを使用してページ上でクライアント インタラクションを直接提供するツールはすでに多数あります。これは、クライアント インタラクションの監視がもはや必要でないことを示しています。これはオプションであり、Web サイトのパフォーマンスを測定する上で重要な部分となっています。
3. 比較的正確な訪問者記録
ページのタグ付けは、Cookie を使用して訪問者情報を記録および識別します。一部のページ タグ付けツールは、Cookie と IP を使用して訪問者情報を識別しますが、ログ記録方法は特定の IP アドレスのみに依存します。
Cookie メソッドを使用して訪問者情報を識別することも 100% 正確であることは不可能であることを強調しておく必要があります (実際、完璧などというものは存在しません。スティーブン ホーキング博士は、宇宙には 100% の完璧は存在しないと言いました。そうでなければ、宇宙は存在しません)存在します)が、IP アドレスのみに依存する場合と比較して、結局のところ、Cookie は識別メカニズムを追加します。このメカニズムはクライアントのブラウザにバンドルされており、より多くの識別情報を保存するため、Cookie を使用して記録する訪問者の記録は、 IP 訪問者数。公平を期すために言うと、新しい方法が見つかるまでは(まだ知られていませんが)、Cookie テクノロジーを使用したページマーキング方法が現時点で最も正確な訪問者データを提供できます。
また、ページタグ付け手法は、Webサイトを訪問してデータを巡回するロボットやスパイダーの影響を受けないため、悪意のある不正行為を除けば、この手法で記録されるデータはすべて訪問者「人」のデータであると考えられます。ウェブサイト。特に自分のブログのような非営利 Web サイトの場合、ロボットが Web サイトを巡回することはあまり気にしません。ただし、SEO に対する高度なニーズがある場合は、ログ分析ソフトウェアを使用して検索エンジン ロボットの Web サイトを表示する必要があります。
4. リアルタイムパフォーマンスの向上
ロギング方法と同様に、ページタグ付け方法もリアルタイムでデータを収集します。訪問が発生すると、ページ上のマークアップがトリガーされ、データが取得されてツールのサーバーに送信されます。ただし、ログ方式のデータ処理は、ログ方式とは異なり、リアルタイムではありません。ページマーク方式のデータは、ツールのサーバーに送信された後、短時間で(リアルタイムであっても)処理されて形成されます。報告書。したがって、ページタグ付け方法は非常に優れたリアルタイムパフォーマンスを備えています。たとえば、Omniture の SiteCatalyst データ レポートの遅延は、以前は 1 ~ 2 日でしたが、現在ではそのようなデータの遅延は分析にほとんど影響を与えません。リアルタイムだと考えてください。
5. データの保存と転送の問題はもう存在しません
大量のログ ファイルを保存する必要があるロギング方法とは異なり、ページ マークアップ方法のデータは、必要に応じて Web サイト分析ツール プロバイダーのサーバー (ツール サーバー) に完全に保存できます。これは、追加のハードウェア コストとコストを意味します。ログ ストレージ デバイスを購入することで、ログ ファイルを管理するソフトウェアのコストがなくなります。また、ログ ファイルをログ ファイル解析ソフトウェアに入力する作業も手間が省けます。この作業は、ツールのインポート インターフェイスでマウスを使用してファイルをクリックするほど簡単ではなく、開発が必要になる場合があります。特化したプログラム。また、ミラーサーバーなどがある場合、実際にはページマークアップ方式は無視できますが、ログ方式はデータのマージにおいてそれほど単純ではありません。
さて、今週の宿題が全員に提出されました。次はみんなの番です。皆様のご意見やご感想をぜひ拝見したいです。皆様にとって良い新しい一週間になりますように!
著者: 宋興
記事のソース: http://www.chinawebanalytics.cn/pag-tagging-data-acquire/