[Предисловие] На самом деле существует множество способов получить данные для анализа веб-сайта. Например, используйте данные журнала сервера или установите на клиенте какое-нибудь программное обеспечение для мониторинга. Метод получения данных для анализа веб-сайта с помощью метода маркировки страниц отличается от двух предыдущих методов, но как только он появился на свет, он всех шокировал и быстро стал основным методом. Фактически, почти все темы в моем блоге ( http://www.chinawebanalytics.cn ) основаны на разметке страниц. Сегодняшняя статья поможет друзьям еще раз понять, что такое анализ веб-сайтов с разметкой страниц и как собираются данные в отчетах по анализу веб-сайтов Omniture Site Catalyst или Google Analytics, которые мы читаем каждый день.
Поскольку я в командировке, у меня меньше времени на блог. Эта статья представляет собой отрывок из книги по основам веб-аналитики, которую я сейчас пишу. Надеюсь, в следующем году эта книга станет доступна каждому.
【текст】
Когда дело доходит до сбора данных для анализа веб-сайта, каждый должен сначала иметь предварительные знания, то есть фундаментальные принципы анализа веб-сайта с разметкой страницы и анализа веб-сайта методом журнала совершенно разные. Что касается принципов анализа веб-сайтов с использованием методов журнала, прочтите этот пост: Принципы, преимущества и недостатки анализа веб-сайтов методом журнала сервера. Ранее друг оставил сообщение на Weibo, полагая, что AWStats, Omniture и WebTrends — это инструменты анализа журналов, но Omniture использует метод asp, поэтому они ничем не отличаются. Эта точка зрения совершенно неверно понята. На самом деле все три инструмента разные. AWStats — бесплатный инструмент для анализа журналов. WebTrends изначально был чисто инструментом анализа журналов, но позже была добавлена функция маркировки страниц. Omniture SiteCatalyst родился как инструмент, основанный на тегах страниц, и до сих пор в Omniture нет инструмента для анализа журналов.
Поэтому сегодня мы поговорим лишь о принципе получения данных посредством анализа сайта с помощью тегов страниц. Начнем с игры.
Что такое разметка страницы
Вы все играли в игру StarCraft (StarCraft Generation 1) от Blizzard? Я большой поклонник этой игры. Королева зергов обладает особой способностью распылять паразитов на боевой отряд противника. Таким образом, где бы ни находился боевой отряд, зерги могут ясно видеть ситуацию вокруг него. Очень преданный шпион.
Или все были в банке. Камеры, расположенные повсюду в банке, фактически снимали каждое наше движение, а затем передавали их на запоминающее устройство для хранения.
Поэтому неуместная метафора, так называемая разметка страницы, подобна паразиту, который «распыляется» на странице, или камере, установленной на странице, записывающей каждое движение посетителя на странице, а затем передающей его релевантная Организация или физическое лицо, которому необходимо знать об этом веб-сайте.
На рисунке ниже представлен этот процесс:
Тег страницы похож на небольшой красный фрагмент на картинке. На самом деле это оператор программы JavaScript, который может выполняться браузером и помещаться в исходный HTML-файл страницы. Таким образом, при загрузке страницы в браузер клиента будет выполняться Javascript-программа, отмеченная на этой странице, подобно паразиту в StarCraft, или включаться камера.
После выполнения кода JavaScript метки страницы информация о интерактивном доступе посетителя к странице будет точно и непрерывно отправляться на сервер инструмента анализа веб-сайта, соответствующего метке страницы. Это то же самое, что камера отправляет захваченное изображение. Сервер хранения изображений точно такой же. После того, как сервер инструмента анализа веб-сайта получит данные, он продолжит их обработку и перевод в графику, таблицы и файлы данных, которые люди смогут читать и анализировать, а затем представлять их в красивом пользовательском интерфейсе. Таким методом сбора данных является наша часто используемая Google Analytics.
Как видите, метод разметки страниц принципиально отличается от метода протоколирования.
1. Метод регистрации заключается в извлечении данных из файла журнала для анализа, тогда как тег страницы требует искусственного добавления на страницу небольшого «шпионского модуля», а это означает, что для получения данных необходимо полагаться на третью сторону.
2. Из-за этого дополнительного маленького «шпионского модуля» метод маркировки страницы должен изменить исходный HTML-файл страницы, а метод регистрации — нет.
3. Метод регистрации пассивно ожидает, пока вы обработаете данные. Если вы их не обработаете, данные будут точной и жесткой записью. Метод маркировки страниц активно отправляет данные и автоматически предварительно обрабатывает данные и ждет вас. анализировать.
Давайте поговорим здесь немного об истории. На заре Интернета веб-сайты были небольшими по размеру и простой по структуре, а метод регистрации доминировал в мире. Однако Интернет развивался слишком быстро, и программное обеспечение, аппаратное обеспечение и логическая архитектура веб-сайта быстро становились все более и более. Сложность заключается в том, что существует множество проблем, которые необходимо решить с помощью метода журналирования. Трудности растут, сложность реализации возрастает в геометрической прогрессии, и людям необходимо найти более простой способ достижения этой цели. С популярностью JavaScript и появлением SaaS (Программное обеспечение как услуга, Программное обеспечение как услуга) появился метод разметки страниц. Этот метод прост в реализации, и нет необходимости иметь дело с массивными записями файлов журналов, управлением данными. и эффективность обработки была значительно улучшена, и он быстро стал первым выбором многих веб-мастеров. Именно из-за своих многочисленных преимуществ, таких как простота, высокая читаемость данных и низкая сложность управления, метод маркировки страниц стал основным методом сбора данных в науке анализа веб-сайтов. Мой блог также полностью посвящен этому методу, а не методам ведения журнала. будет обсуждаться подробно.
Интересное чтение: разница между кодами мониторинга и тегами мониторинга.
В конкретной практической деятельности по анализу веб-сайтов мы часто смешиваем два разных метода тегов отслеживания — код отслеживания и тег отслеживания. Но на самом деле это разные вещи, и если мы сможем их строго различать, это поможет нам точнее общаться.
Код относится к операторам в исполняемой программе, поэтому код мониторинга относится к оператору исполняемой программы, написанному для целей мониторинга. Наиболее типичным кодом мониторинга является код мониторинга JavaScript Google Analytics, который мы добавляем на страницу.
Тег — это идентификатор, добавляемый для идентификации объекта мониторинга. Этот идентификатор не является оператором программы и не может быть выполнен, но может распознаваться программой и использоваться для определения конкретных атрибутов объекта мониторинга. Например, это URL-адрес: http://www.chinawebanalytics.cn/?utm_campaign=newbook&utm_source=tsinghua&utm_medium=PRess , «?utm_campaign=newbook&utm_source=tsinghua&utm_medium=press» — это метка. Тег также может быть полным URL-адресом.
Проще говоря, программа, которую можно выполнить, — это код мониторинга, а программа, которую невозможно выполнить, — это метка мониторинга.
Как работает метод разметки страниц
Мы уже поняли основные принципы метода разметки страниц, и теперь нам нужно подробно изучить, как разметка страниц может собирать, передавать и наконец представлять нам данные. Понимание этого процесса очень полезно для нас при проведении конкретного мониторинга реализации анализа веб-сайта.
Шаг 1. Код мониторинга страницы загружается и выполняется браузером.
Обязательным условием правильной работы метода разметки страниц является добавление фрагмента кода мониторинга JavaScript на каждую страницу, которую необходимо отслеживать на веб-сайте. Когда пользователь открывает эту страницу, сервер (или Кэш) ответит на запрос пользователя, а затем передаст страницу вместе с кодом мониторинга в браузер пользователя. Когда браузер пользователя получит код мониторинга, он начнет его выполнение.
Шаг 2. Выполните полный код мониторинга.
После выполнения кода мониторинга на странице он не реализует все функции мониторинга, а вместо этого запрашивает полный код мониторинга с сервера соответствующего инструмента анализа веб-сайта. Полный оператор кода мониторинга имеет большой объем, поэтому он собирается в файл .js и хранится за пределами веб-страницы. Как только внешний код получит запрос от кода мониторинга страницы, он также будет передан браузеру и выполнен браузером. Таким образом, могут быть реализованы полные функции мониторинга.
Если взять в качестве примера GA-мониторинг моего собственного блога (CWA, Web Analytics в Китае, http://www.chinawebanalytics.cn ), во время выполнения полного кода мониторинга произойдет несколько вещей:
1. Определить различные атрибуты клиента, включая версию браузера, версию операционной системы, разрешение экрана и т. д., и записать конкретное время, когда происходит доступ к странице, источник доступа (источник трафика) и т. д.
2. Создайте файл cookie для браузера этого пользователя. Что такое файлы cookie? Пожалуйста, прочтите этот пост: Защита файлов cookie: без файлов cookie у нас ничего не будет, а также этот пост: Какое влияние оказывают JavaScript и файлы cookie на GA? . Если вы не хотите читать эти две статьи, это не имеет значения. Проще говоря, функция файлов cookie заключается в записи ключевой информации, связанной с посещением пользователем этого веб-сайта, когда пользователь в следующий раз просматривает этот веб-сайт. запись в файле cookie будет использоваться как новая. Ссылка на записи просмотра позволяет инструментам анализа веб-сайта определить, является ли это посещение повторным посещением, является ли посетитель новым посетителем, а также многие другие важные данные. Файлы cookie необходимы для метода обнаружения разметки страницы. Это означает, что если браузер отключит файлы cookie, метод разметки страницы не будет работать. Чтобы узнать о настройках файлов cookie Google Analytics, прочтите эту статью: Показатели веб-аналитики, их значение и то, что вы не знаете (2).
3. Если для браузера этого посетителя ранее был настроен файл cookie, код мониторинга перезапишет части старых данных файла cookie, которые необходимо обновить, гарантируя тем самым, что каждый файл cookie записывает соответствующие данные о поведении доступа.
Шаг 3. Отправьте данные на сервер инструмента анализа веб-сайта.
Когда код мониторинга соберет всю информацию, он передаст соответствующие данные обратно на сервер инструмента анализа веб-сайта. Способ передачи заключается не в отправке данных напрямую (то есть не в использовании метода post. Если вы не понимаете методы post и get в протоколе HTTP, вы можете пропустить содержимое в скобках), а в отправке данные на сервер инструмента анализа веб-сайта. Это делается путем запроса прозрачного изображения GIF размером 1 × 1 пиксель (то есть по-прежнему с использованием метода get, если вы не понимаете, пропустите его). Кажется немного странным, правда? Фактически, при выдаче этого запроса пикселя 1×1 все собранные данные отправляются на сервер инструмента анализа в качестве соответствующих параметров этого запроса, так что инструмент анализа может получить и сохранить соответствующие данные.
Шаг 4. Сервер инструмента анализа веб-сайта записывает данные.
После того, как сервер инструмента анализа веб-сайта получит данные, он сохранит их в большом файле данных. Метод записи этого файла данных очень похож на файл журнала (файл журнала), который мы упоминали ранее. Поэтому здесь мы также называем его. Это файл журнала, но разница в том, что файл журнала содержит не рабочие данные самого сервера инструмента анализа веб-сайта, а данные отслеживаемого веб-сайта.
Каждая строка данных (запись данных) в этом файле журнала содержит много информации об определенном просмотре страницы (PageView), включая, помимо прочего, следующее (в качестве примера возьмем файл записи файла журнала Google Analytics):
1. Дата и время, когда произошел доступ к странице;
2. Название посещенной страницы;
3. Источник посетителя (связан ли он с определенного веб-сайта, через поисковую систему, через прямой доступ и т. д.);
4. Сколько раз посетитель посещает этот сайт;
5. Географическое расположение IP-адреса посетителя;
6. Атрибуты клиента посетителя, такие как операционная система, браузер, разрешение экрана и т. д.
Как только эти записи будут включены в журналы сервера инструментов анализа, процесс сбора данных будет завершен. Следующий пример представляет собой строку данных, записанных на сервере Google Analytics (обратите внимание, что это не реальные данные):
123.121.215.51 www.chinawebanalytics.cn – [31 января 2010 г.: 20:45:26 -0600] «GET
/__utm.gif?utmwv=1&utmn=699988832&utmcs=utf-8&utmsr=1680×1050&utmsc=32-bit&utmul=enus&
utmje=1&utmfl=8.0&utmcn=1&utmdt=%E7%BD%91%E7%AB%99%E5%88%86%E6%9E%90%E5%9C
%A8%E4%B8%AD%E5%9B%BD%E2%80%94%E2%80%94%E4%BB%8E%E5%9F%BA%E7%A1%80
%E5%88%B0%E5%89%8D%E6%B2%BF&utmhid=2006742654&utmr=-
&utmp=/ HTTP/1.1" 200 35 " http://www.chinawebanalytics.cn/ " "Mozilla/5.0 (совместим; MSIE 6.0;
Windows NT 5.1 СВ1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)"
"__utma=453698521.699988832.235456888.235456888.235456888.1; __utmb=453698521;
__utmc=453698521;
__utmz=453698521.235456888.1.1.utmccn=(direct)|utmcsr=(direct)|utmcmd=(нет)"
Приведенные выше данные кажутся беспорядочными, но на самом деле можно увидеть некоторые подсказки. Например, мы видим, что IP-адрес посетителя — 123.121.215.51, посещаемый домен — мой блог www.chinawebanalytics.cn , а время начала посещения — 20:45:26 31 января 2010 года. Кроме того, если оглянуться назад, можно также увидеть информацию об операционной системе и браузере, которыми пользовался посетитель.
Что касается того, что означают utma, utmb, utmc и utmz, вы поймете, прочитав эту статью: Измерение, значимость и неизвестность анализа веб-сайта (2).
Шаг 5. Инструмент анализа веб-сайта обрабатывает данные.
Как только данные будут записаны в файл журнала сервера инструмента анализа веб-сайта, конвейер продолжит работу. Следующим шагом является обработка строк записей в этих файлах журналов. Каждая строка записи содержит определенные элементы данных, называемые полями, такие как IP-адрес посетителя, время доступа, браузер и его версия и т. д. Эти элементы данных будут разбиты отдельно; а затем сохраняются в соответствующих полях, становясь «полуфабрикатом» для нашего окончательного просмотра данных.
Затем полуфабрикаты будут дополнительно фильтроваться по искусственно заданным критериям в инструменте анализа веб-сайта. Поля данных, которые невозможно отфильтровать, будут исключены, а оставшиеся данные будут дополнительно систематизированы в проектах, подготовленных для формирования отчетов. Все эти данные хранятся в специализированных базах данных инструментов анализа веб-сайтов и ждут, чтобы их извлекли и использовали в любое время.
Шаг 6. Создайте отчет.
Когда данные обработаны, весь процесс подходит к концу. Если пользователь запрашивает конкретный отчет с помощью инструмента веб-аналитики, поля данных дополнительно рассчитываются, организуются и группируются в проекты при подготовке к созданию отчета, организованного в заранее определенном (или определяемом пользователем) формате. Мы не можем видеть этот процесс, но он содержит тонкости алгоритма инструмента анализа веб-сайтов. Более того, определение алгоритма также влияет на определение некоторых основных показателей анализа веб-сайтов, что напрямую влияет на вывод фактических значений базовых. метрики. Это также важная причина, почему разные инструменты анализа веб-сайтов дают разные значения при подсчете одного и того же веб-сайта.
Впоследствии подготовленные элементы данных далее передаются на сервер пользовательского интерфейса (пользовательский интерфейс) веб-сайта для создания конкретных графиков, таблиц и рисунков, которые затем выводятся в браузер или клиент пользователя и становятся отчетом, который мы получаем. можно легко понять.
Весь процесс на самом деле не сложен, но инструменты анализа веб-сайтов сталкиваются с большим объемом обработки данных. Особенно, когда трафик веб-сайта особенно велик, инструменты анализа веб-сайта будут нести большую нагрузку. Вот почему многие инструменты анализа веб-сайтов с веб-тегами взимают плату в зависимости от трафика отслеживаемого веб-сайта.
Преимущества использования метода маркировки страниц для анализа веб-сайта
Маркировка страниц имеет множество преимуществ, что делает ее основным методом получения данных для анализа веб-сайта.
1. Не боимся воздействия кэша
В отличие от метода журналирования, который боится влияния кэширования, методу разметки страниц вообще не нужно беспокоиться о кэшировании. Поскольку код разметки страницы помещается в исходный файл страницы, даже если страница кэшируется прокси-сервером или сохраняется в кеше браузера клиента, код разметки страницы также будет сохранен и будет включен, когда браузер загружает страницу.
Таким образом, если вы последовательно вводите несколько страниц веб-сайта, а затем нажимаете кнопку «Назад» в браузере, чтобы вернуться на предыдущую страницу, то в соответствии с методом маркировки страниц действие возврата на предыдущую страницу увеличит страницу. по одному «Просмотру страницы», однако при использовании метода файла журнала новый просмотр страницы может не быть записан из-за влияния кэширования. Таким образом, метод маркировки страниц может более точно регистрировать путешествие посетителя.
2. Возможность записи «взаимодействий с клиентами»
Как упоминалось ранее, разметка страницы реализуется путем выполнения кода JavaScript на клиенте. Поэтому теоретически «каждое движение» на странице, открытой браузером, может быть записано. Для «взаимодействия на стороне клиента» типа Flash, JavaScript или других приложений Web2.0 разметка страницы также может отмечать различные взаимодействия этих приложений, а затем точно фиксировать возникновение этих взаимодействий.
Поскольку веб-страницы становятся все более интерактивными, преимущества разметки страниц станут очень очевидными. Более того, уже существует множество инструментов, которые используют разметку страниц для непосредственного обслуживания взаимодействий клиентов на странице, что показывает, что мониторинг взаимодействия с клиентами больше не требуется. не является обязательным и стал важной частью измерения производительности веб-сайта.
3. Относительно точные записи посетителей
Маркировка страниц использует файлы cookie для записи и идентификации информации о посетителях. Некоторые инструменты маркировки страниц используют файлы cookie и IP-адрес для совместной идентификации информации о посетителях, тогда как методы регистрации полагаются только на определенные IP-адреса.
Следует подчеркнуть, что использование методов cookie для идентификации информации о посетителях также невозможно на 100% точным (на самом деле совершенства не существует. Стивен Хокинг говорил, что 100% совершенства во Вселенной не существует. В противном случае Вселенной не будет). существуют), но по сравнению с использованием исключительно IP-адресов файлы cookie в конце концов добавляют механизм идентификации, и этот механизм связан с браузером клиента и хранит больше идентификационной информации, поэтому посетители, которые используют файлы cookie для записи, записи определенно более точны, чем Количество посетителей по IP. Справедливости ради надо сказать, что пока не будет найден новый метод (о котором пока ничего не известно), метод маркировки страниц с использованием технологии cookie может предоставить наиболее точные данные о посетителях на данный момент.
Кроме того, на метод маркировки страниц не влияют роботы или пауки, которые посещают веб-сайт для сканирования данных веб-сайта. Поэтому, исключая злонамеренное мошенничество, можно считать, что все данные, записанные этим методом, являются данными «людей», посещающих сайт. сайт. Что касается некоммерческого веб-сайта, такого как мой собственный блог, меня не особо волнуют роботы, сканирующие мой сайт. Однако, если у вас очень высокие потребности в SEO, вам следует использовать программное обеспечение для анализа журналов для просмотра веб-сайта роботов поисковых систем.
4. Улучшенная производительность в реальном времени
Как и метод регистрации, метод маркировки страниц также собирает данные в режиме реального времени. Происходит посещение, активируется разметка на странице, данные извлекаются и отправляются на сервер инструмента. Но в отличие от метода log, обработка данных метода log не происходит в режиме реального времени. После того, как данные метода метки страницы передаются на сервер инструмента, они обрабатываются в течение короткого времени (даже в реальном времени), а затем формируются. отчет. Таким образом, метод маркировки страниц имеет довольно хорошую производительность в реальном времени. Например, отчеты данных Omniture SiteCatalyst имеют задержку всего в несколько часов; в прошлом Google Analytics имела задержку от одного до двух дней, но теперь она составляет всего несколько часов. Такие задержки данных мало влияют на анализ и могут. быть приближенным. Думаю, это реальное время.
5. Проблемы с хранением и передачей данных больше не существуют.
В отличие от метода журналирования, который требует сохранения большого количества файлов журналов, данные метода разметки страниц при желании могут полностью храниться на сервере поставщика инструмента анализа веб-сайта (сервере инструментов), что означает дополнительные затраты на оборудование и стоимость приобретение устройства для хранения журналов. Стоимость программного обеспечения для управления файлами журналов исчезла. Кроме того, проблема, которая также сохраняется, - это работа по вводу файлов журналов в программное обеспечение для анализа файлов журналов. Иногда эта работа не так проста, как щелчок мышью по файлу в интерфейсе импорта инструмента, но требует разработки. Специализированная программа. Кроме того, при наличии зеркальных серверов и других ситуациях метод разметки страниц фактически можно игнорировать, а вот метод журнала не так прост в объединении данных.
Хорошо, домашнее задание на этой неделе всем раздано, и теперь очередь всех. Очень хочу видеть ваши комментарии и комментарии. Желаю всем счастливой новой недели!
Автор: Сун Син
Источник статьи: http://www.chinawebanalytics.cn/pag-tagged-data-acquire/