[Préface] Il existe en fait de nombreuses façons d'obtenir des données pour l'analyse de sites Web. Par exemple, utilisez les données du journal du serveur ou installez un logiciel de surveillance sur le client. La méthode d'obtention de données pour l'analyse de sites Web à l'aide de la méthode de marquage de page est différente des deux méthodes précédentes, mais une fois née, elle a choqué tout le monde et est rapidement devenue la méthode dominante. En fait, presque tous les sujets de mon blog ( http://www.chinawebanalytics.cn ) sont basés sur le balisage de page. L'article d'aujourd'hui amènera vos amis à comprendre une fois de plus ce qu'est l'analyse de site Web avec marquage de page et comment les données des rapports d'analyse de site Web Omniture Site Catalyst ou Google Analytics que nous lisons chaque jour sont capturées.
Parce que je suis en voyage d'affaires, j'ai moins de temps pour bloguer. Cet article est un extrait d'un livre que j'écris actuellement sur les bases de l'analyse de sites Web. J'espère que ce livre sera accessible à tous l'année prochaine.
【texte】
Lorsqu'il s'agit de capturer des données pour l'analyse de sites Web, tout le monde doit d'abord avoir une connaissance préliminaire, c'est-à-dire que les principes fondamentaux de l'analyse de sites Web par balisage de page et de l'analyse de sites Web par méthode de journalisation sont complètement différents. Concernant les principes de l'analyse de sites Web à l'aide de méthodes de journalisation, veuillez lire cet article : Principes, avantages et inconvénients de l'analyse de sites Web par méthode de journalisation du serveur. Un ami a déjà laissé un message sur Weibo, pensant qu'AWStats, Omniture et WebTrends sont tous des outils d'analyse de journaux, mais qu'Omniture utilise la méthode asp, ils ne sont donc pas différents. Cette vision est complètement incomprise. En fait, les trois outils sont différents. AWStats est un outil d'analyse de logs gratuit. WebTrends était à l'origine un pur outil d'analyse de journaux, mais a ensuite ajouté la fonction de marquage de page. Omniture SiteCatalyst est né comme un outil basé sur le marquage de pages et, jusqu'à présent, Omniture ne dispose pas d'outil d'analyse des journaux.
Par conséquent, aujourd'hui, nous ne parlerons que du principe d'obtention de données via l'analyse de sites Web à l'aide du marquage de pages. Commençons par un jeu.
Qu'est-ce que le balisage de page
Avez-vous tous joué au jeu StarCraft (StarCraft Generation 1) de Blizzard ? Je suis un grand fan de ce jeu. La Reine des Zergs a une capacité spéciale pour pulvériser un parasite sur une unité d'action ennemie, de cette façon, partout où l'unité d'action va, la situation autour d'elle peut être clairement vue par le Zerg.
Ou alors, tout le monde est allé à la banque. Les caméras placées partout dans la banque ont en fait filmé chacun de nos mouvements, puis les ont transférés vers le périphérique de stockage pour le stockage.
Par conséquent, la métaphore inappropriée, ce qu'on appelle le balisage de page, est comme un parasite qui est « pulvérisé » sur la page, ou une caméra installée sur la page, enregistrant chaque mouvement du visiteur sur la page, puis le transmettant à pertinent Une organisation ou un individu qui a besoin de connaître ce site Web.
La figure ci-dessous représente ce processus :
La balise de page ressemble à un petit morceau rouge dans l'image. Il s'agit en fait d'une instruction de programme JavaScript qui peut être exécutée par le navigateur et placée dans le fichier source HTML de la page. De cette façon, lorsque la page sera téléchargée sur le navigateur du client, le programme Javascript marqué dans cette page sera exécuté, tout comme un parasite dans StarCraft, ou la caméra sera allumée.
Une fois le code JavaScript du marque de page exécuté, le comportement d'accès interactif du visiteur à la page sera envoyé fidèlement et en continu au serveur de l'outil d'analyse du site Web correspondant au marque de page. C'est la même chose que la caméra envoyant l'image capturée. Le serveur de stockage d'images est exactement le même. Une fois que le serveur de l'outil d'analyse du site Web a reçu les données, il les traitera davantage et les traduira en graphiques, tableaux et fichiers de données que les utilisateurs pourront lire et analyser, puis les présentera sur une belle interface utilisateur. Notre Google Analytics couramment utilisé est une telle méthode de collecte de données.
Comme vous pouvez le constater, la méthode de marquage des pages est fondamentalement différente de la méthode de journalisation.
1. La méthode de journalisation consiste à extraire les données du fichier journal pour analyse ; tandis que la balise de page nécessite l'ajout artificiel d'une petite « unité d'espionnage » à la page, ce qui signifie qu'elle doit s'appuyer sur un tiers pour obtenir les données.
2. En raison de cette petite "unité d'espionnage" supplémentaire, la méthode de marquage de page doit modifier le fichier source HTML de la page, mais pas la méthode de journalisation.
3. La méthode de journalisation attend passivement que vous traitiez les données. Si vous ne les traitez pas, les données constitueront un enregistrement fidèle et rigide. La méthode de marquage de page envoie activement les données, prétraitera automatiquement les données et vous attendra. à analyser.
Parlons ici d’un peu d’histoire. Au début d'Internet, les sites Web étaient de petite taille et de structure simple, et la méthode de journalisation dominait le monde. Cependant, Internet s'est développé trop rapidement et les logiciels, le matériel et l'architecture logique des sites Web sont rapidement devenus de plus en plus nombreux. complexe. De nombreux problèmes doivent être surmontés avec la méthode de journalisation. Les difficultés augmentent, la difficulté de mise en œuvre augmente de façon exponentielle et les gens doivent trouver un moyen plus simple d'y parvenir. Avec la popularité de JavaScript et l'émergence du SaaS (Software as a Service, Software as a Service), la méthode de balisage de page est apparue. Cette méthode est simple à mettre en œuvre et il n'est pas nécessaire de gérer des enregistrements de fichiers journaux massifs ou une gestion des données. et L'efficacité du traitement a été considérablement améliorée et est rapidement devenue le premier choix de nombreux webmasters. Précisément en raison de ses nombreux avantages, tels que la simplicité, la grande lisibilité des données et la faible difficulté de gestion, la méthode de marquage de page est devenue la méthode d'acquisition de données dominante dans la science de l'analyse de sites Web. Mon blog se concentre également entièrement sur cette méthode plutôt que sur les méthodes de journalisation. sera discuté en détail.
Lecture intéressante : la différence entre les codes de surveillance et les balises de surveillance
Dans les activités pratiques spécifiques de l'analyse de sites Web, nous mélangeons souvent deux méthodes de balises de suivi différentes : le code de suivi et la balise de suivi. Mais en réalité, ce sont des choses différentes, et si nous pouvons les distinguer strictement, cela nous aidera à communiquer avec plus de précision.
Le code fait référence aux instructions d'un programme exécutable, donc le code de surveillance fait référence à une instruction de programme exécutable écrite à des fins de surveillance. Le code de surveillance le plus courant est le code de surveillance JavaScript de Google Analytics que nous ajoutons à la page.
La balise fait référence à un identifiant ajouté pour identifier un objet de surveillance. Cet identifiant n'est pas une instruction de programme et ne peut pas être exécuté, mais il peut être reconnu par le programme et utilisé pour déterminer les attributs spécifiques de l'objet de surveillance. Par exemple, il s'agit d'une URL : http://www.chinawebanalytics.cn/?utm_campaign=newbook&utm_source=tsinghua&utm_medium=PRess , "?utm_campaign=newbook&utm_source=tsinghua&utm_medium=press" est une étiquette. La balise peut également être une URL complète.
Pour faire simple, le programme qui peut être exécuté est le code de surveillance, et le programme qui ne peut pas être exécuté est l'étiquette de surveillance.
Comment fonctionne la méthode de balisage de page
Nous avons déjà compris les principes de base de la méthode de balisage de page, et nous devons maintenant apprendre en détail comment le balisage de page peut nous collecter, transmettre et enfin nous présenter des données. Comprendre ce processus nous est très utile pour effectuer un suivi spécifique de la mise en œuvre de l'analyse du site Web.
Étape 1 : Le code de surveillance de la page est chargé et exécuté par le navigateur
La condition préalable au bon fonctionnement de la méthode de balisage des pages est d’ajouter un morceau de code de surveillance JavaScript à chaque page qui doit être surveillée sur le site Web. Lorsque l'utilisateur ouvre cette page, le serveur (ou le cache) répondra à la demande de l'utilisateur, puis transmettra la page, ainsi que le code de surveillance, au navigateur de l'utilisateur. Lorsque le navigateur de l'utilisateur reçoit le code de surveillance, il commence à exécuter le code.
Étape 2, exécutez le code de surveillance complet
Une fois le code de surveillance sur la page exécuté, il ne réalise pas toutes les fonctions de surveillance, mais demande plutôt le code de surveillance complet au serveur de son outil d'analyse de site Web correspondant. L'instruction complète du code de surveillance contient une grande quantité, elle est donc collectée dans un fichier .js et stockée en dehors de la page Web. Une fois que le code externe reçoit une demande du code de surveillance de la page, elle sera également transmise au navigateur et exécutée par le navigateur. De cette manière, des fonctions de surveillance complètes peuvent être réalisées.
En prenant comme exemple la surveillance GA de mon propre blog (CWA, Web Analytics in China, http://www.chinawebanalytics.cn ), lors de l'exécution du code de surveillance complet, plusieurs choses se produiront :
1. Détectez divers attributs du client, notamment la version du navigateur, la version du système d'exploitation, la résolution de l'écran, etc., et enregistrez l'heure précise à laquelle l'accès à la page se produit, la source de l'accès (Source du trafic), etc.
2. Créez un cookie pour le navigateur de cet utilisateur. Que sont les cookies ? Veuillez consulter cet article : Défendre les cookies - Sans cookies, nous n'avons rien, et cet article : Quel impact ont JavaScript et les cookies sur GA ? . Si vous ne souhaitez pas lire ces deux articles, cela n'a pas d'importance. En termes simples, la fonction des cookies est d'enregistrer les informations clés liées à la visite de l'utilisateur sur ce site Web, lors de sa prochaine navigation. l'enregistrement dans le cookie sera utilisé comme un nouveau. La référence des enregistrements de navigation permet aux outils d'analyse du site Web de déterminer si cette visite est une visite répétée, si le visiteur est un nouveau visiteur et de nombreuses autres données importantes. Les cookies sont requis dans la méthode de détection du balisage de page, ce qui signifie que si le navigateur désactive les cookies, la méthode de balisage de page ne fonctionnera pas. Pour connaître les paramètres des cookies de Google Analytics, veuillez consulter cet article : Métriques d'analyse de site Web, leur signification et ce que vous ne savez pas (2).
3. Si un cookie a déjà été configuré pour le navigateur de ce visiteur, le code de surveillance réécrira les parties des anciennes données de cookie qui doivent être mises à jour, garantissant ainsi que chaque cookie enregistre les données de comportement d'accès correspondantes.
Étape 3 : Envoyer les données au serveur de l'outil d'analyse du site Web
Lorsque le code de surveillance aura collecté toutes les informations, il transmettra les données pertinentes au serveur de l'outil d'analyse du site Web. La méthode de transmission ne consiste pas à envoyer les données directement (c'est-à-dire à ne pas utiliser la méthode post. Si vous ne comprenez pas les méthodes de publication et d'obtention du protocole HTTP, vous pouvez ignorer le contenu entre parenthèses), mais à envoyer le données au serveur de l'outil d'analyse du site Web. Cela se fait en demandant une image GIF transparente de 1 × 1 pixel (c'est-à-dire en utilisant toujours la méthode get, si vous ne comprenez pas, veuillez l'ignorer). Cela semble un peu étrange, non ? En effet, lors de l'émission de cette requête 1x1 pixel, toutes les données collectées sont envoyées au serveur de l'outil d'analyse comme paramètres pertinents de cette requête, afin que l'outil d'analyse puisse obtenir et stocker les données pertinentes.
Étape 4, le serveur de l'outil d'analyse du site Web enregistre les données
Une fois que le serveur de l'outil d'analyse du site Web a reçu les données, il les stocke dans un fichier de données volumineux. La méthode d'enregistrement de ce fichier de données est très similaire au fichier journal (Fichier journal) que nous avons mentionné plus tôt. Par conséquent, nous l'appelons également ici. Il s'agit d'un fichier journal, mais la différence est que le fichier journal ne contient pas ici les données d'exploitation du serveur de l'outil d'analyse du site Web lui-même, mais les données du site Web surveillé.
Chaque ligne de données (une entrée de données) dans ce fichier journal contient de nombreuses informations sur une certaine page vue (PageView), y compris, mais sans s'y limiter, les éléments suivants (prenons le fichier d'enregistrement du fichier journal de Google Analytics comme exemple) :
1. La date et l'heure auxquelles l'accès à la page a eu lieu ;
2. Le titre de la page visitée ;
3. La source du visiteur (qu'il soit lié à partir d'un certain site Web, via un moteur de recherche, via un accès direct, etc.) ;
4. Le nombre de fois que ce visiteur visite ce site Web ;
5. La localisation géographique de l’adresse IP du visiteur ;
6. Attributs du client du visiteur, tels que le système d'exploitation, le navigateur, la résolution de l'écran, etc.
Une fois ces enregistrements inclus dans les journaux du serveur de l’outil d’analyse, le processus de collecte de données est terminé. L'exemple suivant est une ligne de données enregistrées sur le serveur Google Analytics (veuillez noter qu'il ne s'agit pas de données réelles) :
123.121.215.51 www.chinawebanalytics.cn – [31/jan/2010:20:45:26 -0600] "OBTENIR
/__utm.gif?utmwv=1&utmn=699988832&utmcs=utf-8&utmsr=1680×1050&utmsc=32-bit&utmul=enus&
utmje=1&utmfl=8.0&utmcn=1&utmdt=%E7%BD%91%E7%AB%99%E5%88%86%E6%9E%90%E5%9C
%A8%E4%B8%AD%E5%9B%BD%E2%80%94%E2%80%94%E4%BB%8E%E5%9F%BA%E7%A1%80
%E5%88%B0%E5%89%8D%E6%B2%BF&utmhid=2006742654&utmr=-
&utmp=/ HTTP/1.1" 200 35 " http://www.chinawebanalytics.cn/ " "Mozilla/5.0 (compatible ; MSIE 6.0 ;
Windows NT 5.1 ; .NET CLR 1.1.4322 ; .NET CLR 2.0.50727)"
"__utma=453698521.699988832.235456888.235456888.235456888.1; __utmb=453698521;
__utmc=453698521;
__utmz=453698521.235456888.1.1.utmccn=(direct)|utmcsr=(direct)|utmcmd=(aucun)"
Les données ci-dessus semblent confuses, mais en fait, certains indices peuvent être vus. Par exemple, nous pouvons voir que l'adresse IP du visiteur est 123.121.215.51, le domaine visité est mon blog www.chinawebanalytics.cn et l'heure à laquelle la visite a été lancée était 20 h 45 min 26 s le 31 janvier 2010. De plus, si vous regardez en arrière, vous pouvez également voir des informations sur le système d'exploitation et le navigateur utilisé par le visiteur.
Quant à ce que signifient utma, utmb, utmc et utmz, vous comprendrez après avoir lu cet article : Mesure d'analyse de site Web, signification et inconnue (2).
Étape 5, l'outil d'analyse de site Web traite les données
Une fois les données enregistrées dans le fichier journal du serveur de l’outil d’analyse du site Web, le pipeline continuera à descendre. L'étape suivante consiste à traiter les lignes d'enregistrement dans ces fichiers journaux. Chaque ligne d'enregistrement contient des éléments de données spécifiques, appelés champs, tels que l'adresse IP du visiteur, l'heure d'accès, le navigateur et sa version, etc. puis stocké dans les champs correspondants, devenant le « produit semi-fini » pour notre visualisation finale des données.
Ensuite, les données semi-finies seront filtrées davantage selon des critères définis artificiellement dans l'outil d'analyse du site Web. Les champs de données qui ne peuvent pas être filtrés seront exclus, et les données restantes seront ensuite organisées dans des projets préparés pour générer des rapports. Toutes ces données sont stockées dans des bases de données spécialisées d'outils d'analyse de sites Web, en attente d'être extraites et utilisées à tout moment.
Étape 6, générer un rapport
Une fois les données traitées, l’ensemble du processus touche à sa fin. Si un utilisateur demande un rapport spécifique à l'aide d'un outil d'analyse de site Web, les champs de données sont ensuite calculés, organisés et organisés en projets en vue de générer le rapport, organisés dans un format prédéfini (ou défini par l'utilisateur). Nous ne pouvons pas voir ce processus, mais il contient la subtilité d'un algorithme d'outil d'analyse de site Web. De plus, la définition de l'algorithme affecte également la définition de certaines métriques d'analyse de base de site Web, ce qui affecte directement la sortie des valeurs réelles de la base. métrique. C'est également une raison importante pour laquelle différents outils d'analyse de sites Web apportent des valeurs différentes lorsqu'ils comptent le même site Web.
Par la suite, les éléments de données préparés sont ensuite transmis au serveur de l'interface utilisateur (interface utilisateur) de l'outil du site Web pour générer des graphiques, des tableaux et des figures spécifiques, qui sont ensuite envoyés au navigateur ou au client de l'utilisateur et deviennent un rapport que nous. peut facilement comprendre.
L'ensemble du processus n'est en fait pas compliqué, mais les outils d'analyse de sites Web seront confrontés à une grande quantité de traitement de données. Surtout lorsque le trafic d'un site Web est particulièrement important, les outils d'analyse de sites Web supporteront une lourde charge. C'est pourquoi de nombreux outils d'analyse de sites Web de marquage Web facturent des frais en fonction du trafic du site Web surveillé.
Avantages de l'utilisation de la méthode de balisage de page pour l'analyse de sites Web
Le balisage de pages présente de nombreux avantages, ce qui en fait une méthode courante d'obtention de données pour l'analyse de sites Web.
1. Ne craignez pas l'impact du cache
Contrairement à la méthode de journalisation, qui craint l'impact de la mise en cache, la méthode de balisage de page n'a pas du tout à se soucier de la mise en cache. Étant donné que le code du balisage de la page est placé dans le fichier source de la page, même si la page est mise en cache par le serveur proxy ou enregistrée par le cache du navigateur du client, le code du balisage de la page sera également enregistré et inclus lorsque le navigateur charge la page à exécuter.
Par conséquent, si vous entrez successivement plusieurs pages d'un site Web, puis cliquez sur le bouton "Retour" du navigateur pour revenir à la page précédente, alors sous la méthode de marquage de page, le fait de revenir à la page précédente augmentera la page. par une « Page vue » ; cependant, avec la méthode du fichier journal, une nouvelle page vue peut ne pas être enregistrée en raison de l'impact de la mise en cache. De cette manière, la méthode de balisage des pages peut enregistrer avec plus de précision le parcours du visiteur.
2. Possibilité d'enregistrer les « interactions clients »
Comme mentionné précédemment, le balisage de page est implémenté en exécutant du code JavaScript sur le client. Par conséquent, en théorie, « chaque mouvement » sur la page ouverte par le navigateur peut être enregistré. Pour les applications Flash, JavaScript ou autres applications Web 2.0 de type « interaction côté client », le balisage de page peut également marquer diverses interactions de ces applications, puis enregistrer avec précision l'occurrence de ces interactions.
À mesure que les pages Web deviennent de plus en plus interactives, les avantages du balisage de page deviendront très évidents. De plus, il existe déjà de nombreux outils qui utilisent le balisage de page pour servir directement les interactions des clients sur la page, ce qui montre que la surveillance des interactions des clients n'est plus nécessaire. facultatif et est devenu un élément important de la mesure des performances du site Web.
3. Registres des visiteurs relativement précis
Le marquage des pages repose sur des cookies pour enregistrer et identifier les informations des visiteurs. Certains outils de marquage des pages utilisent des cookies et l'adresse IP pour identifier conjointement les informations des visiteurs, tandis que les méthodes de journalisation reposent uniquement sur des adresses IP spécifiques.
Il convient de souligner qu'il est également impossible d'utiliser des méthodes de cookies pour identifier les informations des visiteurs. Il est également impossible d'être précis à 100 % (en fait, la perfection n'existe pas. Stephen Hawking a déclaré que la perfection à 100 % n'existe pas dans l'univers. Sinon, l'univers n'existera pas. existent), mais par rapport au fait de s'appuyer uniquement sur les adresses IP, les cookies ajoutent un mécanisme d'identification après tout, et ce mécanisme est intégré au navigateur du client et stocke plus d'informations d'identification, de sorte que les visiteurs qui utilisent des cookies pour enregistrer les enregistrements sont nettement plus précis que le Nombre de visiteurs IP. Pour être honnête, jusqu'à ce qu'une nouvelle méthode soit trouvée (dont on n'a pas encore entendu parler), la méthode de marquage de page utilisant la technologie des cookies peut actuellement fournir les données les plus précises sur les visiteurs.
De plus, la méthode de marquage des pages n'est pas affectée par les robots ou les araignées qui visitent le site Web pour explorer les données du site Web. Par conséquent, à l'exclusion de la tricherie malveillante, on peut considérer que toutes les données enregistrées par cette méthode sont les données des « personnes » visitant. le site Web. Surtout pour un site Web non commercial comme mon propre blog, je ne me soucie pas vraiment des robots qui explorent mon site Web. Cependant, si vous avez des besoins très avancés en matière de référencement, vous devez alors utiliser un logiciel d’analyse de logs pour visualiser le site Web des robots des moteurs de recherche.
4. Meilleures performances en temps réel
Comme la méthode de journalisation, la méthode de balisage de page collecte également des données en temps réel. Une visite a lieu, déclenche le balisage sur la page et les données sont récupérées et envoyées au serveur de l'outil. Mais contrairement à la méthode de journalisation, le traitement des données de la méthode de journalisation n'est pas en temps réel. Une fois les données de la méthode de marquage de page transmises au serveur de l'outil, elles sont traitées en peu de temps (même en temps réel) puis formées. un rapport. Par conséquent, la méthode de balisage des pages offre de très bonnes performances en temps réel. Par exemple, les rapports de données SiteCatalyst d'Omniture n'ont qu'un retard de quelques heures ; dans le passé, Google Analytics avait un retard d'un à deux jours, mais maintenant ce n'est que de quelques heures. De tels retards de données ont peu d'impact sur l'analyse et peuvent le faire. être approximatif. Je pense que c'est le temps réel.
5. Les problèmes de stockage et de transfert de données n'existent plus
Contrairement à la méthode de journalisation, qui nécessite la sauvegarde d'un grand nombre de fichiers journaux, les données de la méthode de balisage de page peuvent être entièrement stockées sur le serveur du fournisseur de l'outil d'analyse du site Web (serveur d'outils), si vous le souhaitez, ce qui entraîne un coût matériel supplémentaire et un coût de en achetant un périphérique de stockage de journaux, le coût du logiciel de gestion des fichiers journaux a disparu. De plus, un problème qui est également évité est le travail de saisie des fichiers journaux dans le logiciel d'analyse des fichiers journaux. Parfois, ce travail n'est pas aussi simple que d'utiliser la souris pour cliquer sur un fichier dans l'interface d'importation de l'outil, mais nécessite un développement. Programme spécialisé. De plus, lorsqu'il existe des serveurs miroirs et dans d'autres situations, la méthode de balisage de page peut en fait être ignorée, mais la méthode de journalisation n'est pas si simple pour fusionner les données.
Bon, les devoirs de cette semaine ont été remis à tout le monde, et maintenant c'est au tour de chacun. Je veux vraiment voir vos commentaires et commentaires. Je vous souhaite à tous une bonne semaine !
Auteur : Song Xing
Source de l'article : http://www.chinawebanalytics.cn/pag-tagging-data-acquire/