Платформа анализа поведения пользователей Xiaoxiang
представлять
Технологии больших данных быстро применяются в бизнесе и создают ценность. Выявление поведения пользователей посредством анализа данных и обеспечение ориентированного на пользователя быстрого роста с низкими затратами являются ключевыми факторами конкурентоспособности, которыми должно обладать предприятие. В условиях значительного увеличения затрат компании должны изменить свои прежние обширные методы маркетинга и работы, особенно в области маркетинга, производства продукции, продаж и будущего обслуживания клиентов, чтобы стать более научными и эффективными.
После запуска системы электронной коммерции Xiaoxiang ей необходимо собирать данные о поведении пользователей и реализовывать цифровые операции электронной коммерции посредством анализа больших данных в реальном времени. На основании этого высокого спроса разработан анализ поведения пользователей Xiaoxiang. Он совместим с SDK скрытых точек Shence с открытым исходным кодом для составления отчетов о поведении терминала. Nginx+Flume+kafka используется для реализации сбора журналов, а Flink используется для записи в HDFS. .
Содержимое этого проекта с открытым исходным кодом включает в себя настройку среды nginx, расшифровку Flume и обработку формата журналов, хранение обычных текстовых данных в рамках темы Kafka и четыре ключевых шага по хранению скрытых данных в HDFS после использования Flink. Чтобы облегчить проверку и оптимизацию ранних скрытых точек, в ссылке Kafka данные анализа скрытых точек сохраняются в формате JSON в MySQL. В последующий план входит добавление обработки отслеживания Umeng и других поставщиков SDK, а также сбор и хранение журналов бизнес-систем.
Основное содержание проекта
1. Сбор логов (Flume+kafka)
2. Хранилище журналов (Flink+HDFS)
Рабочий процесс
Идеи архитектурного дизайна
Идеи бизнес-дизайна
Техническая архитектура
Исходные терминалы поведенческих данных, собранных SDK, включают iOS, Android, Web, H5, апплет WeChat и т. д. Различные SDK терминала используют SDK, соответствующие платформе и основным языкам. Данные, собранные скрытыми точками, передаются в API сервера в режиме HTTP POST через данные JSON. Серверный API состоит из системы доступа к данным, которая использует Nginx для получения данных, отправленных через API, и записи их в файл журнала. Используйте Nginx для достижения высокой надежности и масштабируемости. Для журналов, печатаемых Nginx в файлы, модуль Source Flume считывает журналы Nginx в режиме реального времени, а модуль Channel выполняет обработку данных и, наконец, публикует результаты обработки в Kafka через модуль Sink.
Полная архитектура программного обеспечения
Этапы интеграции стороннего SDK для подземных точек
1. Введение SDK: добавьте зависимости SDK в файл конфигурации приложения терминала. Методы внедрения для разных терминалов будут разными. Конкретные этапы работы будут отражены в последующих технических документах SDK.
2. Настройте адрес API сервера отчетов: используется для установки адреса сервера API отчетов SDK.
3. Включите полный охват. SDK может автоматически собирать информацию о некоторых действиях пользователя, таких как запуск приложения, выход, просмотр страниц и управление щелчками. При инициализации SDK вы можете настроить и включить точки полного захоронения с помощью метода инициализации, предоставляемого SDK.
Проектирование службы доступа к API
Скрытые данные из разных каналов отправляются в API сервера через HTTP API для обеспечения доступа к данным. Используйте Nginx в качестве WEB-контейнера для получения данных, отправленных клиентским SDK, и записи их в файл журнала. Основная причина использования Nginx — это высокая степень параллелизма, высокая надежность и высокая масштабируемость.
Сценарии сбора данных о поведении пользователей
Разбирая сценарии приложений, мы можем использовать сценарии для планирования и обнаружения скрытых точек. Сортировку сцен можно разделить на три уровня:
1. Общие базовые сценарии: общие операции рассматриваются единообразно.
2. Важные сценарии операций: общее распределение важных операций
3. Сценарий основного бизнес-процесса: определение полного процесса с бизнес-линиями.
Эффект применения
Заявление об авторских правах
Для анализа поведения данных Little Elephant используется соглашение об открытом исходном коде Apache2.0. Частные лица и предприятия должны соблюдать следующие условия для прямого или коммерческого использования после вторичной разработки:
1. Содержит файл ЛИЦЕНЗИИ на анализ сяосяньгана (авторизованные пользователи могут бесплатно использовать патенты на анализ сяосяньгана и права интеллектуальной собственности).
2. Если код изменен, это необходимо указать в измененном файле.
3. В код, модифицированный или полученный из исходного кода, необходимо включить соглашение и товарный знак в исходном коде.
4. Если в коммерчески выпущенном продукте после вторичной разработки используется несколько программ с открытым исходным кодом, необходимо включить файл уведомления, и файл уведомления должен содержать ЛИЦЕНЗИЮ на ксиаоксиананализ. Вы можете добавить свою собственную лицензию в Уведомление, но ее нельзя отобразить как изменение ЛИЦЕНЗИИ на ксиаоксиананализ.
Например:
`
Лицензия Апач-2.0
`