Si desea analizar los datos del sitio web, primero debe saber de dónde provienen los datos del sitio web.
Cuando los usuarios acceden a Internet, enviarán solicitudes de servicio al servidor. La solicitud enviada es registrada por el servidor en el registro del servidor en un registro separado. Este es el registro de datos del sitio web más original.
Primero mire el registro de Apache
10.1.1.95 - usuario [18/Mar/2005:12:21:42 +0800] “GET /stats/awstats.pl?config=user HTTP/1.1″ 200 899 “http://10.1.1.1/pv/” "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; Maxthon)"
Lo anterior es un registro estándar de Apache.
Esta línea de contenido consta de 9 elementos. En el ejemplo anterior, dos elementos están en blanco, pero la línea de contenido completa aún está dividida en 9 elementos.
· El primer dato es la dirección del host remoto. Es decir, la IP de la máquina del visitante. El servidor envía información de respuesta al visitante en función de esta IP.
· El segundo elemento está en blanco y se reemplaza por un marcador de posición "-". De hecho, esto es cierto la mayor parte del tiempo. Esta ubicación se utiliza para registrar la identificación del visitante, que no es sólo el nombre de inicio de sesión del visitante, sino también la dirección de correo electrónico del visitante u otro identificador único. Esta información la devuelve identd o directamente el navegador. Al principio, esta ubicación solía registrar la dirección de correo electrónico del espectador. Sin embargo, no duró mucho porque algunas personas lo utilizaban para recopilar direcciones de correo electrónico y enviar spam, y casi todos los navegadores del mercado eliminaron esta función hace mucho tiempo. Entonces, a partir de hoy, las posibilidades de que veamos una dirección de correo electrónico en la segunda entrada del registro son escasas o nulas.
· El tercer elemento también es usuario. Esta ubicación se utiliza para registrar el nombre proporcionado por el visitante al autenticarse. Por supuesto, si algún contenido del sitio web requiere que el usuario se autentique, esta información no quedará en blanco. Sin embargo, para la mayoría de los sitios web que no requieren verificación de inicio de sesión, esta entrada seguirá estando en blanco en la mayoría de los registros del archivo de registro.
· El cuarto elemento registrado en el registro es el momento de la solicitud. Este mensaje está entre corchetes y está en lo que se llama "formato de registro común" o "formato inglés estándar". Por lo tanto, el registro del ejemplo anterior indica que la hora de la solicitud fue el 18 de marzo de 2005, 12:21:42. El "+0800" al final de la información horaria indica que la zona horaria del servidor está 8 horas por detrás de UTC. De hecho, la hora de los servidores nacionales es +8000.
· La quinta pieza de información en el registro es quizás la información más útil de todo el registro. Nos dice qué tipo de solicitud recibió el servidor. El formato típico de esta información es "Protocolo de recursos de método".
En el ejemplo anterior, el método es GET. Otros métodos que pueden aparecer con frecuencia son POST y HEAD. Hay muchos métodos legales posibles, pero estos son los tres principales.
Un recurso se refiere a un documento, o URL, que un navegador solicita al servidor. En este ejemplo, el navegador solicitó "/stats/awstats.pl?config=user".
El protocolo suele ser HTTP, seguido de un número de versión.
· La sexta información registrada es el código de estado. Nos dice si la solicitud fue exitosa o qué error se encontró. La mayoría de las veces, este valor es 200, lo que significa que el servidor respondió con éxito a la solicitud del navegador y todo es normal. En términos generales, un código de estado que comienza con 2 significa éxito, un código de estado que comienza con 3 significa que la solicitud del usuario fue redirigida a otra ubicación por varias razones, un código de estado que comienza con 4 significa que hay algún tipo de error en el lado del cliente y un código de estado que comienza con 4 significa que hay algún tipo de error en el lado del cliente. Los códigos de estado que comienzan con 5 indican que el servidor encontró un error.
· La séptima entrada en el registro representa el número total de bytes enviados al cliente. Nos dice si la transferencia fue interrumpida (es decir, si el valor es el mismo que el tamaño del archivo). La suma de estos valores en los registros le indica cuántos datos envió el servidor en un día, semana o mes.
· El octavo elemento del registro registra el directorio o URL donde se encontraba el cliente al realizar la solicitud. Esta vez es "http://10.1.1.1/pv/", que es la página de inicio en el directorio pv de 10.1.1.1. En la mayoría de los casos, la página de inicio será un archivo web del tipo y nombre especificado después de la directiva DocumentRoot en httpd.conf.
· El noveno elemento del registro de registro representa la información detallada del cliente.
Lo anterior es una explicación de los registros de Apache.
Luego cambie al registro de IIS, los registros son similares, excepto que la autenticación de inicio de sesión devuelta por identd, debido a que siempre ha estado vacía, se ha convertido en el contenido de la cookie enviada o recibida, y hay algunos contenidos de subestado adicionales del protocolo.
Como puede ver en lo anterior, la mayoría de los datos que analizamos se pueden obtener, pero todavía hay algunos problemas. Cuando el usuario hace clic en los botones de avance y retroceso del navegador, el navegador del cliente lee primero el caché y solo lo encuentra. en el caché. De lo contrario, volverá a solicitar al servidor. Por lo tanto, si el servidor puede recordar la página después de que el usuario haga clic hacia atrás o hacia adelante depende completamente de la forma en que está escrita la página y el estado de la máquina.
Cuando se utilizan registros originales para el análisis, algunas páginas pequeñas de iframe y otras se solicitarán por separado, lo que hace que el número de solicitudes para abrir una página no sea necesariamente 1. Estas también son algunas de las desventajas de los registros originales.
Al mismo tiempo, estos registros sirven principalmente para rastrear el estado y la seguridad del servidor, y algunos datos no se registran.
· La relación entre páginas no se registra y no existe relación entre la página desde la que accedió el usuario.
· Es imposible distinguir una determinada visita de un usuario, especialmente para sitios web que no requieren ser accesibles.
· Las operaciones de página no se pueden registrar, especialmente las operaciones de clic.
Por eso, algunos sitios web han desarrollado sus propios métodos de grabación, generalmente utilizando JS o una solicitud de una imagen de un píxel para registrar esta información.
De esta forma, se registran varios datos, incluido el referente de la página de origen visitada, el número de sesión, el número de cookie y los datos generados por el clic. Y estos datos se pueden registrar directamente en la base de datos.
El uso de este método reduce la dificultad del análisis y aumenta la información que se puede analizar, pero sacrifica cierto grado de precisión. Se puede decir que hay ganancias y pérdidas.
· El primero son los datos grabables. Dado que se generan en el cliente, si ocurre un error en el servidor, se perderá el 100% de los datos. El servidor no responde en absoluto, entonces, ¿cómo se pueden generar los datos? Además, dado que es necesario iniciar js para transmitir datos, todos los datos se perderán hasta cierto punto. Generalmente, cuando el estado del servidor no es malo, una tasa de precisión del 98% es aceptable.
· Los datos de la página de origen aún se perderán. Debido a la relación entre los saltos de página y los protocolos, se perderá una cierta cantidad de la página de origen. Lo que es más problemático es que las páginas https se transmiten mediante un protocolo cifrado, independientemente de. No importa qué método se utilice, se perderá en la página http.
· Se ve muy afectado por el lenguaje y protocolo de la página. Las llamadas en la página, Ajax, js, etc. pueden afectar la precisión del registro.
· Finalmente, todas las páginas deben agregarse con código. No subestimes esto. Si hay muchas páginas, esto es realmente un problema. Si esa página se olvida, afectará los datos generales.
· No se puede encontrar la IP de la máquina. Existen algunas diferencias entre la IP en este punto y la IP en el registro. En algunos casos, donde varias máquinas comparten una IP, lo que se registra no es la IP de la máquina final del usuario. la IP en la ruta de acceso a Internet.
Para resumir lo anterior, en cuanto al análisis de sitios web, dado que la relación entre el método de adquisición de datos y el método de programación del sitio web es relativamente complicada, se deben tener más cuidado al analizar los datos del sitio web. Pueden ocurrir fallas y trampas en los datos en cualquier momento. tiempo.
Fuente del artículo: cuaderno de Lance.