[Prefácio] Na verdade, existem muitas maneiras de obter dados para análise de sites. Por exemplo, use dados de log do servidor ou instale algum software de monitoramento no cliente. O método de obtenção de dados para análise de sites usando o método de marcação de página é diferente dos dois métodos anteriores, mas assim que nasceu, chocou a todos e rapidamente se tornou o método convencional. Na verdade, quase todos os tópicos do meu blog ( http://www.chinawebanalytics.cn ) são baseados na marcação de página. O artigo de hoje levará os amigos a entender mais uma vez o que é a análise de sites com marcação de páginas e como os dados nos relatórios de análise de sites do Omniture Site Catalyst ou do Google Analytics que lemos todos os dias são capturados.
Como estou em viagem de negócios, tenho menos tempo para blogar. Este artigo é um trecho de um livro que estou escrevendo sobre noções básicas de análise de sites. Espero que este livro esteja disponível para todos no próximo ano.
【texto】
Quando se trata de captura de dados para análise de sites, todos devem primeiro ter um conhecimento preliminar, ou seja, os princípios fundamentais da análise de marcação de páginas de sites e da análise de métodos de log de sites são completamente diferentes. Com relação aos princípios de análise de sites usando métodos de log, leia esta postagem: Princípios, vantagens e desvantagens da análise de sites pelo método de log de servidor. Um amigo já deixou uma mensagem no Weibo pensando que AWStats, Omniture e WebTrends são ferramentas de análise de log, mas Omniture usa o método asp, então não são diferentes. Esta visão é completamente mal compreendida. Na verdade, todas as três ferramentas são diferentes. AWStats é uma ferramenta de análise de log gratuita. WebTrends era originalmente uma ferramenta pura de análise de log, mas posteriormente adicionou a função de marcação de página. Omniture SiteCatalyst nasceu como uma ferramenta baseada em Page Tagging, e até o momento a Omniture não possui uma ferramenta para análise de logs.
Portanto, hoje falaremos apenas sobre o princípio de obtenção de dados por meio de análise de sites por meio de tagging de páginas. Vamos começar com um jogo.
O que é marcação de página
Todos vocês já jogaram o jogo StarCraft (StarCraft Generation 1) da Blizzard? Sou um grande fã deste jogo. A Rainha dos Zergs tem uma habilidade especial de pulverizar um parasita em uma unidade de ação inimiga. Desta forma, onde quer que a unidade de ação vá, a situação ao seu redor pode ser vista claramente pelos Zergs.
Ou todos já estiveram no banco. As câmeras colocadas em todo o banco filmaram cada movimento que fizemos e depois os transferiram para o dispositivo de armazenamento para armazenamento.
Portanto, a metáfora inadequada, a chamada marcação de página, é como um parasita que é “pulverizado” na página, ou uma câmera instalada na página, registrando cada movimento do visitante na página, e depois repassando para relevante Uma organização ou indivíduo que precisa saber sobre este site.
A figura abaixo representa esse processo:
A tag da página é como um pequeno pedaço vermelho na imagem. Na verdade, é uma instrução de programa JavaScript que pode ser executada pelo navegador e colocada no arquivo fonte HTML da página. Desta forma, ao baixar a página para o navegador do cliente, o programa Javascript marcado nesta página será executado, assim como um parasita no StarCraft, ou a câmera será ligada.
Após a execução do código JavaScript da marca da página, o comportamento de acesso interativo do visitante na página será enviado de forma fiel e contínua ao servidor da ferramenta de análise do site correspondente à marca da página. para O servidor de armazenamento de imagens é exatamente o mesmo. Depois que o servidor da ferramenta de análise de site recebe os dados, ele os processa posteriormente e os traduz em gráficos, tabelas e arquivos de dados que as pessoas podem ler e analisar e, em seguida, apresentá-los em uma bela interface de usuário. Nosso Google Analytics comumente usado é esse método de coleta de dados.
Como você pode ver, o método de marcação de página é fundamentalmente diferente do método de registro.
1. O método de registro consiste em extrair os dados do arquivo de log para análise, enquanto a tag da página requer a adição artificial de uma pequena "unidade espiã" à página, o que significa que ela precisa contar com terceiros para obter os dados.
2. Por causa dessa pequena "unidade espiã" adicional, o método de marcação de página precisa modificar o arquivo de origem HTML da página, mas o método de registro não.
3. O método de registro espera passivamente que você processe os dados. Se você não processá-los, os dados serão um registro fiel e rígido. O método de marcação de página envia dados ativamente e irá pré-processá-los automaticamente e esperar por você. analisar.
Vamos falar um pouco de história aqui. Nos primeiros dias da Internet, os sites eram pequenos em tamanho e de estrutura simples, e o método de registro dominava o mundo. No entanto, a Internet se desenvolveu muito rápido e o software, o hardware e a arquitetura lógica do site rapidamente se tornaram cada vez mais. complexo Há muitos problemas que precisam ser superados com o método de registro. As dificuldades estão aumentando, a dificuldade de implementação está aumentando exponencialmente e as pessoas precisam encontrar uma maneira mais fácil de alcançá-lo. Com a popularidade do JavaScript e o surgimento do SaaS (Software as a Service, Software as a Service), surgiu o método de marcação de página. Este método é simples de implementar e não há necessidade de lidar com registros massivos de arquivos de log e gerenciamento de dados. e A eficiência do processamento melhorou bastante e rapidamente se tornou a primeira escolha de muitos webmasters. Precisamente por causa de suas muitas vantagens, como simplicidade, alta legibilidade de dados e baixa dificuldade de gerenciamento, o método de marcação de páginas se tornou o principal método de aquisição de dados na ciência da análise de sites. Meu blog também se concentra inteiramente neste método, em vez de métodos de registro. será discutido em detalhes.
Leitura interessante: A diferença entre códigos de monitoramento e tags de monitoramento
Nas atividades práticas específicas de análise de sites, muitas vezes misturamos dois métodos diferentes de tags de rastreamento - Código de Rastreamento e Tag de Rastreamento. Mas, na verdade, são coisas diferentes e, se pudermos distingui-las estritamente, isso nos ajudará a comunicar com mais precisão.
O código refere-se a instruções em um programa executável, portanto, o código de monitoramento refere-se a uma instrução de programa executável escrita para fins de monitoramento. O código de monitoramento mais comum é o código de monitoramento JavaScript do Google Analytics que adicionamos à página.
Tag refere-se a um identificador adicionado para identificar um objeto de monitoramento. Este identificador não é uma instrução de programa e não pode ser executado, mas pode ser reconhecido pelo programa e usado para determinar os atributos específicos do objeto de monitoramento. Por exemplo, este é um URL: http://www.chinawebanalytics.cn/?utm_campaign=newbook&utm_source=tsinghua&utm_medium=PRess , "?utm_campaign=newbook&utm_source=tsinghua&utm_medium=press" é um rótulo. A tag também pode ser um URL completo.
Simplificando, o programa que pode ser executado é o código de monitoramento, e o programa que não pode ser executado é o rótulo de monitoramento.
Como funciona o método de marcação de página
Já entendemos os princípios básicos do método de marcação de página e agora precisamos aprender em detalhes como a marcação de página pode coletar, transmitir e finalmente apresentar dados para nós. Compreender esse processo é muito útil para realizarmos o monitoramento específico da implementação da análise do site.
Etapa 1: o código de monitoramento da página é carregado e executado pelo navegador
O pré-requisito para que o método de marcação de página funcione corretamente é adicionar um código de monitoramento JavaScript a cada página que precisa ser monitorada no site. Quando o usuário abre esta página, o servidor (ou Cache) responderá à solicitação do usuário, e então passará a página, junto com o código de monitoramento, para o navegador do usuário. Quando o navegador do usuário receber o código de monitoramento, ele começará a executá-lo.
Etapa 2, execute o código de monitoramento completo
Após a execução do código de monitoramento da página, ele não realiza todas as funções de monitoramento, mas solicita o código de monitoramento completo do servidor de sua ferramenta de análise de site correspondente. A instrução completa do código de monitoramento tem uma grande quantidade, por isso é coletada em um arquivo .js e armazenada fora da página da web. Assim que o código externo receber uma solicitação do código de monitoramento da página, ele também será passado ao navegador e executado pelo navegador. Desta forma, funções completas de monitoramento podem ser realizadas.
Tomando como exemplo o monitoramento GA do meu próprio blog (CWA, Web Analytics in China, http://www.chinawebanalytics.cn ), durante a execução do código de monitoramento completo, várias coisas acontecerão:
1. Detecte vários atributos do cliente, incluindo versão do navegador, versão do sistema operacional, resolução da tela, etc., e registre o horário específico em que ocorre o acesso à página, a origem do acesso (fonte de tráfego), etc.
2. Crie um cookie para o navegador deste usuário. O que são biscoitos? Por favor, veja esta postagem: Defendendo Cookies - Sem Cookies, Não Temos Nada, e esta postagem: Qual o Impacto do JavaScript e dos Cookies no GA? . Se não quiser ler estes dois artigos, não importa. Simplificando, a função dos cookies é registar as principais informações relacionadas com a visita do utilizador a este site, na próxima vez que o utilizador navegar novamente neste site. o registo no cookie será utilizado como um novo A referência dos registos de navegação permite às ferramentas de análise do site determinar se esta visita é uma visita repetida, se o visitante é um novo visitante, e muitos outros dados importantes. Os cookies são necessários no método de detecção de marcação de página, o que significa que se o navegador desabilitar os cookies, o método de marcação de página não funcionará. Para saber sobre as configurações de cookies do Google Analytics, consulte este artigo: Métricas de análise de sites, seus significados e o que você não sabe (2).
3. Se um cookie já tiver sido configurado para o navegador deste visitante, o código de monitoramento reescreverá as partes dos dados antigos do cookie que precisam ser atualizadas, garantindo assim que cada cookie registre os dados de comportamento de acesso correspondentes.
Passo 3: Envie dados para o servidor da ferramenta de análise de sites
Quando o código de monitoramento coletar todas as informações, ele transmitirá os dados relevantes de volta ao servidor da ferramenta de análise do site. O método de transmissão não é enviar os dados diretamente (ou seja, não usar o método post. Se você não entende os métodos post e get no protocolo HTTP, pode pular o conteúdo entre colchetes), mas enviar o dados para o servidor da ferramenta de análise do site. Isso é feito solicitando uma imagem GIF transparente de 1 × 1 pixel (ou seja, ainda usando o método get, se você não entender, ignore). Parece um pouco estranho, certo? Na verdade, ao emitir este pedido de 1×1 pixel, todos os dados recolhidos são enviados para o servidor da ferramenta de análise como parâmetros relevantes deste pedido, para que a ferramenta de análise possa obter e armazenar os dados relevantes.
Etapa 4, o servidor da ferramenta de análise de site registra dados
Depois que o servidor da ferramenta de análise de site receber os dados, ele os armazenará em um grande arquivo de dados. O método de gravação desse arquivo de dados é muito semelhante ao arquivo de log (Arquivo de Log) que mencionamos anteriormente. É um Arquivo de Log, mas a diferença é que o Arquivo de Log aqui não contém os dados operacionais do próprio servidor da ferramenta de análise de sites, mas sim os dados do site monitorado.
Cada linha de dados (uma entrada de dados) neste arquivo de log contém muitas informações sobre uma determinada visualização de página (PageView), incluindo, mas não se limitando ao seguinte (tome o arquivo de registro do arquivo de log do Google Analytics como exemplo):
1. A data e hora em que ocorreu o acesso à página;
2. O título da página visitada;
3. A origem do visitante (se está vinculado a um determinado site, através de um motor de busca, através de acesso direto, etc.);
4. O número de vezes que este visitante visita este site;
5. A localização geográfica do endereço IP do visitante;
6. Atributos do cliente visitante, como sistema operacional, navegador, resolução de tela, etc.
Depois que esses registros forem incluídos nos logs do servidor da ferramenta de análise, o processo de coleta de dados estará concluído. O exemplo a seguir é uma linha de dados registrados no servidor do Google Analytics (observe que não são dados reais):
123.121.215.51 www.chinawebanalytics.cn – [31/Jan/2010:20:45:26 -0600] "OBTER
/__utm.gif?utmwv=1&utmn=699988832&utmcs=utf-8&utmsr=1680×1050&utmsc=32 bits&utmul=enus&
utmje=1&utmfl=8.0&utmcn=1&utmdt=%E7%BD%91%E7%AB%99%E5%88%86%E6%9E%90%E5%9C
%A8%E4%B8%AD%E5%9B%BD%E2%80%94%E2%80%94%E4%BB%8E%E5%9F%BA%E7%A1%80
%E5%88%B0%E5%89%8D%E6%B2%BF&utmhid=2006742654&utmr=-
&utmp=/ HTTP/1.1" 200 35 " http://www.chinawebanalytics.cn/ " "Mozilla/5.0 (compatível; MSIE 6.0;
Windows NT 5.1;
"__utma=453698521.699988832.235456888.235456888.235456888.1; __utmb=453698521;
__utmc=453698521;
__utmz=453698521.235456888.1.1.utmccn=(direto)|utmcsr=(direto)|utmcmd=(nenhum)"
Os dados acima parecem confusos, mas na verdade algumas pistas podem ser vistas. Por exemplo, podemos ver que o endereço IP do visitante é 123.121.215.51, o domínio visitado é meu blog www.chinawebanalytics.cn e o horário em que a visita foi iniciada foi às 20h45:26 do dia 31 de janeiro de 2010. Além disso, se você olhar para trás, também poderá ver informações sobre o sistema operacional e o navegador utilizado pelo visitante.
Quanto ao que significam utma, utmb, utmc e utmz, você entenderá depois de ler este artigo: Medição de análise de site, significância e desconhecido (2).
Etapa 5, a ferramenta de análise de site processa dados
Depois que os dados forem registrados no arquivo de log do servidor da ferramenta de análise de sites, o pipeline continuará inativo. O próximo passo é processar as linhas de registro nestes Arquivos de Log. Cada linha de registro contém elementos de dados específicos, chamados de campos, como IP do visitante, tempo de acesso, navegador e sua versão, etc.. Estes elementos de dados serão divididos separadamente; e depois armazenados nos campos correspondentes, tornando-se o “produto semiacabado” para nossa visualização final dos dados.
Em seguida, os dados semiacabados serão posteriormente filtrados por critérios definidos artificialmente na ferramenta de análise do site. Os campos de dados que não puderem ser filtrados serão excluídos e os demais dados serão posteriormente organizados em projetos preparados para geração de relatórios. Todos esses dados ficam armazenados em bancos de dados especializados de ferramentas de análise de sites, aguardando para serem extraídos e utilizados a qualquer momento.
Etapa 6, gerar relatório
Quando os dados são processados, todo o processo chega ao fim. Se um usuário solicitar um relatório específico usando uma ferramenta de análise de site, os campos de dados serão calculados, organizados e organizados em projetos em preparação para a geração do relatório, organizados em um formato predefinido (ou definido pelo usuário). Não podemos ver esse processo, mas ele contém a sutileza de um algoritmo de ferramenta de análise de site. Além disso, a definição do algoritmo também afeta a definição de algumas métricas básicas de análise de site, o que afeta diretamente a saída dos valores reais do básico. métricas. Esta também é uma razão importante pela qual diferentes ferramentas de análise de sites trazem valores diferentes ao contar o mesmo site.
Posteriormente, os itens de dados preparados são enviados para o servidor da UI (interface do usuário) da ferramenta do site para gerar gráficos, tabelas e figuras específicas, que são então enviadas para o navegador ou cliente do usuário e se tornam um relatório que nós. pode facilmente entender.
Na verdade, todo o processo não é complicado, mas as ferramentas de análise de sites enfrentarão uma grande quantidade de processamento de dados. Especialmente quando o tráfego de um site é particularmente grande, as ferramentas de análise de sites suportam uma carga pesada. É por isso que muitas ferramentas de análise de sites de tagging cobram taxas com base no tráfego do site monitorado.
Vantagens de usar o método de marcação de página para análise de sites
A marcação de páginas tem muitas vantagens, tornando-se um método convencional de obtenção de dados para análise de sites.
1. Não tenho medo do impacto do cache
Ao contrário do método de registro, que teme o impacto do cache, o método de marcação de página não precisa se preocupar com o cache. Como o código da marcação da página é colocado no arquivo de origem da página, mesmo que a página seja armazenada em cache pelo servidor proxy ou salva pelo cache do navegador do cliente, o código da marcação da página também será salvo e incluído quando o navegador carrega a página ser executada.
Portanto, se você entrar em várias páginas de um site em sucessão e, em seguida, clicar no botão "Voltar" do navegador para retornar à página anterior, então, no método de marcação de página, o ato de retornar à página anterior aumentará a página por uma "Visualização de página"; no entanto, no método de arquivo de log, uma nova visualização de página pode não ser registrada devido ao impacto do cache. Dessa forma, o método de marcação de página pode registrar a jornada do visitante com mais precisão.
2. Capacidade de registrar “interações com clientes”
Conforme mencionado anteriormente, a marcação da página é implementada executando o código JavaScript no cliente. Portanto, em teoria, “cada movimento” na página aberta pelo navegador pode ser registrado. Para aplicativos Flash, JavaScript ou outros aplicativos web2.0 de "interação do lado do cliente", a marcação de página também pode marcar várias interações desses aplicativos e, em seguida, registrar com precisão a ocorrência dessas interações.
À medida que as páginas da web se tornam cada vez mais interativas, as vantagens da marcação de página se tornarão muito óbvias. Além disso, já existem muitas ferramentas que usam marcação de página para atender diretamente às interações do cliente na página, o que mostra que o monitoramento da interação do cliente não é mais necessário. opcional e se tornou uma parte importante da medição do desempenho do site.
3. Registros de visitantes relativamente precisos
A marcação de páginas depende de cookies para registrar e identificar informações do visitante. Algumas ferramentas de marcação de páginas usam cookies e IP para identificar conjuntamente as informações do visitante, enquanto os métodos de registro dependem apenas de endereços IP específicos.
Deve-se enfatizar que o uso de métodos de cookies para identificar as informações dos visitantes também é impossível de ser 100% preciso (na verdade, a perfeição não existe. Stephen Hawking disse que 100% de perfeição não existe no universo. Caso contrário, o universo não existirá. existem), mas em comparação com a dependência apenas de endereços IP, os cookies adicionam, afinal, um mecanismo de identificação, e esse mecanismo é fornecido com o navegador do cliente e armazena mais informações de identificação, de modo que os visitantes que usam cookies para registrar os registros são definitivamente mais precisos do que os Contagem de visitantes IP. Para ser justo, até que um novo método seja encontrado (do qual ainda não se ouviu falar), o método de marcação de página usando tecnologia de cookies pode fornecer os dados de visitante mais precisos atualmente.
Além disso, o método de marcação de páginas não é afetado por robôs ou spiders que visitam o site para rastrear os dados do site. Portanto, excluindo trapaças maliciosas, pode-se considerar que todos os dados registrados por este método são dados de “pessoas” que visitam. o site. Especialmente para um site não comercial como o meu blog, eu realmente não me importo com robôs rastreando meu site. No entanto, se você tiver necessidades muito avançadas de SEO, deverá usar um software de análise de log para visualizar o site dos robôs dos mecanismos de pesquisa.
4. Melhor desempenho em tempo real
Assim como o método de registro, o método de marcação de página também coleta dados em tempo real. Ocorre uma visita, aciona a marcação na página e os dados são buscados e enviados ao servidor da ferramenta. Mas, diferentemente do método de log, o processamento de dados do método de log não é em tempo real. Depois que os dados do método de marcação de página são transmitidos ao servidor da ferramenta, eles são processados em um curto espaço de tempo (mesmo em tempo real) e então formados. um relatório. Portanto, o método de marcação de página tem um desempenho em tempo real muito bom. Por exemplo, os relatórios de dados SiteCatalyst da Omniture tinham um atraso de apenas algumas horas no passado, o Google Analytics tinha um atraso de um a dois dias, mas agora é de apenas algumas horas. Esses atrasos de dados têm pouco impacto na análise; ser aproximado. Pense que é em tempo real.
5. Problemas de armazenamento e transferência de dados não existem mais
Ao contrário do método de registro, que requer o salvamento de um grande número de arquivos de log, os dados do método de marcação de página podem ser armazenados inteiramente no servidor do provedor da ferramenta de análise de site (servidor de ferramenta), se desejar, o que significa o custo adicional de hardware e custo de compra de um dispositivo de armazenamento de log O custo do software para gerenciar arquivos de log acabou. Além disso, um problema que também é salvo é o trabalho de inserir arquivos de log no software de análise de arquivos de log. Às vezes, esse trabalho não é tão simples quanto usar o mouse para clicar em um arquivo na interface de importação da ferramenta, mas requer desenvolvimento. Programa especializado. Além disso, quando há servidores espelho e outras situações, o método de marcação de página pode realmente ser ignorado, mas o método de log não é tão simples na mesclagem de dados.
Pronto, o dever de casa desta semana foi entregue a todos e agora é a vez de todos. Eu realmente quero ver seus comentários e comentários. Desejo a todos uma feliz semana nova!
Autor: Song Xing
Fonte do artigo: http://www.chinawebanalytics.cn/pag-tagging-data-acquire/