[Prefacio] En realidad, existen muchas formas de obtener datos para el análisis de sitios web. Por ejemplo, utilice datos de registro del servidor o instale algún software de monitoreo en el cliente. El método de obtención de datos para el análisis de sitios web mediante el método de etiquetado de páginas es diferente de los dos métodos anteriores, pero una vez que nació, sorprendió a todos y rápidamente se convirtió en el método principal. De hecho, casi todos los temas de mi blog ( http://www.chinawebanalytics.cn ) se basan en el marcado de páginas. El artículo de hoy ayudará a los amigos a comprender una vez más qué es el análisis de sitios web con etiquetado de páginas y cómo se capturan los datos de los informes de análisis de sitios web de Omniture Site Catalyst o Google Analytics que leemos todos los días.
Como estoy en un viaje de negocios, tengo menos tiempo para escribir un blog. Este artículo es un extracto de un libro que estoy escribiendo actualmente sobre los conceptos básicos del análisis de sitios web. Espero que este libro esté disponible para todos el próximo año.
【texto】
Cuando se trata de la captura de datos para el análisis de sitios web, primero todos deben tener un conocimiento preliminar, es decir, los principios fundamentales del análisis de sitios web con marcado de página y el análisis de sitios web con método de registro son completamente diferentes. Con respecto a los principios del análisis de sitios web utilizando métodos de registro, lea esta publicación: Principios, ventajas y desventajas del análisis de sitios web con el método de registro del servidor. Un amigo anteriormente dejó un mensaje en Weibo, pensando que AWStats, Omniture y WebTrends son herramientas de análisis de registros, pero Omniture usa el método asp, por lo que no son diferentes. Esta visión está completamente mal entendida. De hecho, las tres herramientas son diferentes. AWStats es una herramienta de análisis de registros gratuita. WebTrends era originalmente una herramienta pura de análisis de registros, pero luego agregó la función de etiquetado de páginas. Omniture SiteCatalyst nació como una herramienta basada en Page Tagging y hasta el momento Omniture no cuenta con una herramienta para el análisis de registros.
Por tanto, hoy solo hablaremos del principio de obtención de datos mediante el análisis de sitios web mediante etiquetado de páginas. Empecemos con un juego.
¿Qué es el marcado de página?
¿Habéis jugado todos al juego StarCraft (StarCraft Generation 1) de Blizzard? Soy un gran admirador de este juego. La Reina de los Zerg tiene una habilidad especial para rociar un parásito sobre una unidad de acción enemiga. De esta manera, dondequiera que vaya la unidad de acción, los Zerg pueden ver claramente la situación a su alrededor.
O bien, todos han estado en el banco. Las cámaras colocadas en todas partes del banco en realidad filmaron cada movimiento que hicimos y luego los transfirieron al dispositivo de almacenamiento para su almacenamiento.
Por lo tanto, la metáfora inapropiada, el llamado marcado de página, es como un parásito que se "rocía" en la página, o una cámara instalada en la página, que registra cada movimiento del visitante en la página y luego lo transmite a relevante Una organización o individuo que necesita saber acerca de este sitio web.
La siguiente figura representa este proceso:
La etiqueta de la página es como una pequeña pieza roja en la imagen. En realidad, es una declaración de programa JavaScript que puede ejecutar el navegador y se coloca en el archivo fuente HTML de la página. De esta forma, cuando la página se descarga en el navegador del cliente, se ejecutará el programa Javascript marcado en esta página, como un parásito en StarCraft, o se encenderá la cámara.
Una vez ejecutado el código JavaScript de la marca de página, el comportamiento de acceso interactivo del visitante a la página se enviará fiel y continuamente al servidor de la herramienta de análisis del sitio web correspondiente a la marca de página. Esto es lo mismo que la cámara envía la imagen capturada. El servidor de almacenamiento de imágenes es exactamente el mismo. Después de que el servidor de la herramienta de análisis del sitio web reciba los datos, los procesará aún más y los traducirá en gráficos, tablas y archivos de datos que las personas pueden leer y analizar, y luego los presentará en una hermosa interfaz de usuario. Nuestro Google Analytics de uso común es un método de recopilación de datos de este tipo.
Como puede ver, el método de marcado de página es fundamentalmente diferente del método de registro.
1. El método de registro consiste en extraer los datos del archivo de registro para su análisis; mientras que la etiqueta de la página requiere agregar artificialmente una pequeña "unidad espía" a la página, lo que significa que debe depender de un tercero para obtener los datos.
2. Debido a esta pequeña "unidad espía" adicional, el método de marcado de página necesita modificar el archivo fuente HTML de la página, pero el método de registro no.
3. El método de registro espera pasivamente a que usted procese los datos. Si no los procesa, los datos serán un registro fiel y rígido. El método de marcado de página envía datos activamente y los preprocesará automáticamente y lo esperará. para analizar.
Hablemos de un poco de historia aquí. En los primeros días de Internet, los sitios web eran de tamaño pequeño y de estructura simple, y el método de registro dominaba el mundo. Sin embargo, Internet se desarrolló demasiado rápido y el software, el hardware y la arquitectura lógica del sitio web se hicieron cada vez más. complejo Hay muchos problemas que deben superarse con el método de registro. Las dificultades están aumentando, la dificultad de implementación está aumentando exponencialmente y la gente necesita encontrar una manera más fácil de lograrlo. Con la popularidad de JavaScript y la aparición de SaaS (software como servicio, software como servicio), surgió el método de marcado de páginas. Este método es fácil de implementar y no es necesario lidiar con registros masivos de archivos de registro ni administración de datos. y La eficiencia del procesamiento ha mejorado enormemente y rápidamente se ha convertido en la primera opción de muchos webmasters. Precisamente debido a sus muchas ventajas, como la simplicidad, la alta legibilidad de los datos y la baja dificultad de gestión, el método de etiquetado de páginas se ha convertido en el método principal de adquisición de datos en la ciencia del análisis de sitios web. Mi blog también se centra exclusivamente en este método en lugar de en los métodos de registro. será discutido en detalle.
Lectura interesante: la diferencia entre códigos de seguimiento y etiquetas de seguimiento
En las actividades prácticas específicas del análisis de sitios web, a menudo combinamos dos métodos de etiquetas de seguimiento diferentes: código de seguimiento y etiqueta de seguimiento. Pero en realidad son cosas diferentes, y si podemos distinguirlas estrictamente, nos ayudará a comunicarnos con mayor precisión.
El código se refiere a declaraciones en un programa ejecutable, por lo que el código de monitoreo se refiere a una declaración de programa ejecutable escrita con fines de monitoreo. El código de seguimiento más típico es el código de seguimiento JavaScript de Google Analytics que agregamos a la página.
Etiqueta se refiere a un identificador agregado para identificar un objeto de monitoreo. Este identificador no es una declaración de programa y no se puede ejecutar, pero el programa puede reconocerlo y usarlo para determinar los atributos específicos del objeto de monitoreo. Por ejemplo, esta es una URL: http://www.chinawebanalytics.cn/?utm_campaign=newbook&utm_source=tsinghua&utm_medium=PRess , "?utm_campaign=newbook&utm_source=tsinghua&utm_medium=press" es una etiqueta. La etiqueta también puede ser una URL completa.
En pocas palabras, el programa que se puede ejecutar es el código de monitoreo y el programa que no se puede ejecutar es la etiqueta de monitoreo.
Cómo funciona el método de marcado de página
Ya hemos entendido los principios básicos del método de marcado de página y ahora necesitamos aprender en detalle cómo el marcado de página puede recopilar, transmitir y finalmente presentarnos datos. Comprender este proceso nos resulta muy útil para llevar a cabo un seguimiento específico de la implementación del análisis del sitio web.
Paso 1: el navegador carga y ejecuta el código de monitoreo de la página
El requisito previo para que el método de etiquetado de páginas funcione correctamente es agregar un fragmento de código de monitoreo JavaScript a cada página que deba monitorearse en el sitio web. Cuando el usuario abre esta página, el servidor (o caché) responderá a la solicitud del usuario y luego pasará la página, junto con el código de monitoreo, al navegador del usuario. Cuando el navegador del usuario reciba el código de monitoreo, comenzará a ejecutar el código.
Paso 2, ejecute el código de monitoreo completo
Una vez ejecutado el código de monitoreo en la página, no realiza todas las funciones de monitoreo, sino que solicita el código de monitoreo completo del servidor de su herramienta de análisis del sitio web correspondiente. Hay una gran cantidad de declaraciones del código de monitoreo completo, por lo que se recopila en un archivo .js y se almacena fuera de la página web. Una vez que el código externo recibe una solicitud del código de monitoreo de la página, también se pasará al navegador y el navegador la ejecutará. De esta manera se pueden realizar funciones de supervisión completas.
Tomando como ejemplo el monitoreo GA de mi propio blog (CWA, Web Analytics en China, http://www.chinawebanalytics.cn ), durante la ejecución del código de monitoreo completo, sucederán varias cosas:
1. Detectar varios atributos del cliente, incluida la versión del navegador, la versión del sistema operativo, la resolución de la pantalla, etc., y registrar la hora específica en que se produce el acceso a la página, la fuente del acceso (Fuente de tráfico), etc.
2. Cree una cookie para el navegador de este usuario. ¿Qué son las galletas? Consulte esta publicación: Defensa de las cookies: sin cookies, no tenemos nada y esta publicación: ¿Cuánto impacto tienen JavaScript y las cookies en GA? . Si no desea leer estos dos artículos, no importa. En pocas palabras, la función de las cookies es registrar la información clave relacionada con la visita del usuario a este sitio web. el registro en la cookie se utilizará como nuevo. La referencia de los registros de navegación permite que las herramientas de análisis del sitio web determinen si esta visita es una visita repetida, si el visitante es un visitante nuevo y muchos otros datos importantes. Las cookies son necesarias en el método de detección de marcado de página, lo que significa que si el navegador desactiva las cookies, el método de marcado de página no funcionará. Para conocer la configuración de cookies de Google Analytics, consulte este artículo: Métricas de análisis de sitios web, sus significados y lo que no sabe (2).
3. Si se ha configurado anteriormente una cookie para el navegador de este visitante, el código de monitoreo reescribirá las partes de los datos de la cookie anterior que deben actualizarse, garantizando así que cada cookie registre los datos de comportamiento de acceso correspondientes.
Paso 3: enviar datos al servidor de la herramienta de análisis del sitio web
Cuando el código de seguimiento haya recopilado toda la información, transmitirá los datos relevantes al servidor de la herramienta de análisis del sitio web. El método de transmisión no es enviar los datos directamente (es decir, no utilizar el método de publicación. Si no comprende la publicación y los métodos de obtención en el protocolo HTTP, puede omitir el contenido entre paréntesis), sino enviar el datos al servidor de la herramienta de análisis del sitio web. Esto se hace solicitando una imagen GIF transparente de 1 × 1 píxel (es decir, aún usando el método de obtención, si no lo comprende, omítalo). Parece un poco extraño, ¿verdad? De hecho, al emitir esta solicitud de 1×1 píxel, todos los datos recopilados se envían al servidor de la herramienta de análisis como parámetros relevantes de esta solicitud, de modo que la herramienta de análisis pueda obtener y almacenar los datos relevantes.
Paso 4, el servidor de la herramienta de análisis de sitios web registra datos
Una vez que el servidor de la herramienta de análisis del sitio web recibe los datos, los almacenará en un archivo de datos grande. El método de registro de este archivo de datos es muy similar al archivo de registro (archivo de registro) que mencionamos anteriormente. Es un archivo de registro, pero la diferencia es que el archivo de registro aquí no contiene los datos operativos del servidor de la herramienta de análisis del sitio web, sino los datos del sitio web monitoreado.
Cada línea de datos (una entrada de datos) en este archivo de registro contiene mucha información sobre una determinada página vista (PageView), que incluye, entre otros, lo siguiente (tome el archivo de registro del archivo de registro de Google Analytics como ejemplo):
1. La fecha y hora en que se produjo el acceso a la página;
2. El título de la página visitada;
3. La fuente del visitante (si está vinculado desde un determinado sitio web, a través de un motor de búsqueda, mediante acceso directo, etc.);
4. El número de veces que este visitante visita este sitio web;
5. La ubicación geográfica de la dirección IP del visitante;
6. Atributos del cliente visitante, como sistema operativo, navegador, resolución de pantalla, etc.
Una vez que estos registros se incluyen en los registros del servidor de la herramienta de análisis, se completa el proceso de recopilación de datos. El siguiente ejemplo es una fila de datos registrados en el servidor de Google Analytics (tenga en cuenta que no son datos reales):
123.121.215.51 www.chinawebanalytics.cn – [31/ene/2010:20:45:26 -0600] "OBTENER
/__utm.gif?utmwv=1&utmn=699988832&utmcs=utf-8&utmsr=1680×1050&utmsc=32-bit&utmul=enus&
utmje=1&utmfl=8.0&utmcn=1&utmdt=%E7%BD%91%E7%AB%99%E5%88%86%E6%9E%90%E5%9C
%A8%E4%B8%AD%E5%9B%BD%E2%80%94%E2%80%94%E4%BB%8E%E5%9F%BA%E7%A1%80
%E5%88%B0%E5%89%8D%E6%B2%BF&utmhid=2006742654&utmr=-
&utmp=/ HTTP/1.1" 200 35 " http://www.chinawebanalytics.cn/ " "Mozilla/5.0 (compatible; MSIE 6.0;
Windows NT 5.1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)"
"__utma=453698521.699988832.235456888.235456888.235456888.1; __utmb=453698521;
__utmc=453698521;
__utmz=453698521.235456888.1.1.utmccn=(directo)|utmcsr=(directo)|utmcmd=(ninguno)"
Los datos anteriores parecen confusos, pero de hecho se pueden ver algunas pistas. Por ejemplo, podemos ver que la dirección IP del visitante es 123.121.215.51, el dominio visitado es mi blog www.chinawebanalytics.cn y la hora en que se inició la visita fueron las 8:45:26 pm del 31 de enero de 2010. Además, si miras hacia atrás, también podrás ver información sobre el sistema operativo y el navegador utilizado por el visitante.
En cuanto a lo que significan utma, utmb, utmc y utmz, lo comprenderá después de leer este artículo: Medición, importancia y desconocimiento del análisis de sitios web (2).
Paso 5, la herramienta de análisis de sitios web procesa los datos
Una vez que los datos se registran en el archivo de registro del servidor de la herramienta de análisis del sitio web, la tubería continuará cayendo. El siguiente paso es procesar las líneas de registro en estos Archivos de registro. Cada línea de registro contiene elementos de datos específicos, llamados campos, como IP del visitante, tiempo de acceso, navegador y su versión, etc. Estos elementos de datos se dividirán por separado. y luego se almacena en los campos correspondientes, convirtiéndose en el "producto semiacabado" para nuestra visualización final de los datos.
Luego, los datos semiacabados se filtrarán aún más mediante criterios establecidos artificialmente en la herramienta de análisis del sitio web. Los campos de datos que no se pueden filtrar se excluirán y los datos restantes se organizarán en proyectos preparados para generar informes. Todos estos datos se almacenan en bases de datos especializadas de herramientas de análisis de sitios web, a la espera de ser extraídos y utilizados en cualquier momento.
Paso 6, generar informe
Cuando los datos han sido procesados, todo el proceso llega a su fin. Si un usuario solicita un informe específico utilizando una herramienta de análisis de sitios web, los campos de datos se calculan, organizan y organizan en proyectos en preparación para generar el informe, organizados en un formato predefinido (o definido por el usuario). No podemos ver este proceso, pero contiene la sutileza de un algoritmo de herramienta de análisis de sitios web. Además, la definición del algoritmo también afecta la definición de algunas métricas básicas de análisis de sitios web, lo que afecta directamente la salida de los valores reales de los básicos. métrica. Esta también es una razón importante por la que diferentes herramientas de análisis de sitios web aportan valores diferentes al contar el mismo sitio web.
Posteriormente, los elementos de datos preparados se envían al servidor de la interfaz de usuario (UI) de la herramienta del sitio web para generar gráficos, tablas y figuras específicas, que luego se envían al navegador o cliente del usuario y se convierten en un informe que nosotros. puede entender fácilmente.
En realidad, todo el proceso no es complicado, pero las herramientas de análisis de sitios web enfrentarán una gran cantidad de procesamiento de datos. Especialmente cuando el tráfico de un sitio web es particularmente grande, las herramientas de análisis de sitios web soportarán una gran carga. Esta es la razón por la que muchas herramientas de análisis de sitios web de etiquetado web cobran tarifas en función del tráfico del sitio web monitoreado.
Ventajas de utilizar el método de etiquetado de páginas para el análisis de sitios web
El etiquetado de páginas tiene muchas ventajas, lo que lo convierte en un método habitual para obtener datos para el análisis de sitios web.
1. Sin miedo al impacto del caché
A diferencia del método de registro, que teme el impacto del almacenamiento en caché, el método de marcado de página no tiene que preocuparse en absoluto por el almacenamiento en caché. Debido a que el código del marcado de la página se coloca en el archivo fuente de la página, incluso si el servidor proxy almacena en caché la página o la guarda en el caché del navegador del cliente, el código del marcado de la página también se guardará y se incluirá cuando el navegador carga la página para ser ejecutada.
Por lo tanto, si ingresa a varias páginas de un sitio web seguidas y luego hace clic en el botón "Atrás" del navegador para regresar a la página anterior, bajo el método de marcado de página, el acto de regresar a la página anterior aumentará la página. por una "Vista de página"; sin embargo, según el método del archivo de registro, es posible que no se registre una nueva vista de página debido al impacto del almacenamiento en caché. De esta manera, el método de etiquetado de páginas puede registrar con mayor precisión el recorrido del visitante.
2. Capacidad para registrar "interacciones con el cliente"
Como se mencionó anteriormente, el marcado de página se implementa ejecutando código JavaScript en el cliente. Por lo tanto, en teoría, se puede registrar "cada movimiento" en la página abierta por el navegador. Para aplicaciones Flash, JavaScript u otras aplicaciones web 2.0 de tipo "interacción del lado del cliente", el marcado de página también puede marcar varias interacciones de estas aplicaciones y luego registrar con precisión la aparición de estas interacciones.
A medida que las páginas web se vuelven cada vez más interactivas, las ventajas del marcado de página serán muy obvias. Además, ya existen muchas herramientas que utilizan el marcado de página para atender directamente las interacciones del cliente en la página, lo que demuestra que el monitoreo de la interacción del cliente ya no es un requisito. opcional y se ha convertido en una parte importante de la medición del rendimiento del sitio web.
3. Registros de visitantes relativamente precisos
El etiquetado de páginas se basa en cookies para registrar e identificar la información de los visitantes. Algunas herramientas de etiquetado de páginas utilizan cookies e IP para identificar conjuntamente la información de los visitantes, mientras que los métodos de registro solo se basan en direcciones IP específicas.
Cabe enfatizar que el uso de métodos de cookies para identificar la información de los visitantes también es imposible de ser 100% exacto (de hecho, la perfección no existe. Stephen Hawking dijo que el 100% de perfección no existe en el universo. De lo contrario, el universo no lo hará existen), pero en comparación con depender únicamente de direcciones IP, las cookies agregan un mecanismo de identificación después de todo, y este mecanismo se incluye con el navegador del cliente y almacena más información de identificación, por lo que los visitantes que usan cookies para registrar Los registros son definitivamente más precisos que los Recuento de visitantes IP. Para ser justos, hasta que se encuentre un nuevo método (del que aún no se ha oído hablar), el método de marcado de páginas que utiliza tecnología de cookies puede proporcionar los datos de visitantes más precisos en la actualidad.
Además, el método de etiquetado de páginas no se ve afectado por robots o arañas que visitan el sitio web para rastrear los datos del sitio. Por lo tanto, excluyendo las trampas maliciosas, se puede considerar que todos los datos registrados por este método son datos de las "personas" que visitan. el sitio web. Especialmente para un sitio web no comercial como mi propio blog, realmente no me importan los robots que rastrean mi sitio web. Sin embargo, si tiene necesidades muy avanzadas de SEO, entonces debería utilizar un software de análisis de registros para ver el sitio web de los robots de los motores de búsqueda.
4. Mejor rendimiento en tiempo real
Al igual que el método de registro, el método de etiquetado de páginas también recopila datos en tiempo real. Se produce una visita, se activa el marcado en la página y los datos se obtienen y se envían al servidor de la herramienta. Pero a diferencia del método de registro, el procesamiento de datos del método de registro no es en tiempo real. Una vez que los datos del método de marca de página se transmiten al servidor de la herramienta, se procesan en poco tiempo (incluso en tiempo real) y luego se forman. un informe. Por lo tanto, el método de etiquetado de páginas tiene un rendimiento en tiempo real bastante bueno. Por ejemplo, los informes de datos de SiteCatalyst de Omniture solo tienen un retraso de unas pocas horas en el pasado, Google Analytics tenía un retraso de uno o dos días, pero ahora es de solo unas pocas horas. Dichos retrasos en los datos tienen poco impacto en el análisis y pueden. ser aproximado. Piensa que es tiempo real.
5. Ya no existen problemas de almacenamiento y transferencia de datos
A diferencia del método de registro, que requiere guardar una gran cantidad de archivos de registro, los datos del método de marcado de página se pueden almacenar completamente en el servidor del proveedor de la herramienta de análisis del sitio web (servidor de herramientas) si lo desea, lo que significa el costo adicional de hardware y el costo de comprar un dispositivo de almacenamiento de registros El costo del software para administrar archivos de registro ha desaparecido. Además, un problema que también se ahorra es el trabajo de ingresar archivos de registro en el software de análisis de archivos de registro. A veces, este trabajo no es tan simple como usar el mouse para hacer clic en un archivo en la interfaz de importación de la herramienta, sino que requiere desarrollo. Programa especializado. Además, cuando hay servidores espejo y otras situaciones, el método de marcado de página se puede ignorar, pero el método de registro no es tan simple para fusionar datos.
Bien, los deberes de esta semana se han entregado a todos y ahora es el turno de todos. Tengo muchas ganas de ver tus comentarios y comentarios. ¡Os deseo a todos una feliz semana nueva!
Autor: Song Xing
Fuente del artículo: http://www.chinawebanalytics.cn/pag-tagging-data-acquire/