download cumulative table design - cumulative table design download de código-fonte

cumulative table design

Outro código-fonte

Baixar

Design de tabela cumulativa

O design de tabela cumulativa é uma ferramenta de engenharia de dados extremamente poderosa que todos os engenheiros de dados devem conhecer.

Este design produz tabelas que podem fornecer análises eficientes em intervalos de tempo arbitrariamente grandes (até milhares de dias).

Aqui está um diagrama do design do pipeline de alto nível para este padrão:

Diagrama de tabela cumulativa

Inicialmente construímos nossa tabela de métricas diárias que é a base de qualquer que seja nossa entidade. Esses dados são derivados de quaisquer fontes de eventos que temos no upstream.

Depois de termos nossas métricas diárias, FULL OUTER JOIN a tabela cumulativa de ontem com os dados diários de hoje e construímos nossas matrizes de métricas para cada usuário. Isso nos permite trazer o novo histórico sem ter que digitalizá-lo completamente. (um grande aumento de desempenho)

Essas matrizes de métricas nos permitem responder facilmente a consultas sobre o histórico de todos os usuários usando coisas como ARRAY_SUM para calcular qualquer métrica que desejarmos em qualquer período de tempo que a matriz permitir.

Quanto maior o período de sua análise, mais crítico esse padrão se torna!!

Exemplo de atividade e envolvimento do usuário acumulados

Toda a sintaxe de consulta usa sintaxe e funções Presto/Trino. Este exemplo precisaria ser modificado para outras variantes SQL!
Usaremos as datas:
01/01/2022, como hoje em termos de Airflow, é {{ ds }}
31/12/2021 como ontem em termos de modelos do Airflow, é {{ yesterday_ds}}

Neste exemplo, veremos como construir esse design para calcular usuários ativos diários, semanais e mensais, bem como curtidas, comentários e compartilhamentos dos usuários.

Nossa tabela de origem neste caso é events .

Um usuário estará ativo em um determinado dia se gerar um evento para esse dia.
A tabela tem event_type que é like , comment , share ou view

É tentador pensar que a solução para isso é executar um pipeline como

    SELECT 
        COUNT(DISTINCT user_id) as num_monthly_active_users,
        COUNT(CASE WHEN event_type = 'like' THEN 1 END) as num_likes_30d,
        COUNT(CASE WHEN event_type = 'comment' THEN 1 END) as num_comments_30d,
        COUNT(CASE WHEN event_type = 'share' THEN 1 END) as num_shares_30d,
        ...
    FROM events
    WHERE event_date BETWEEN DATE_SUB('2022-01-01', 30), AND '2022-01-01'

O problema é que verificamos 30 dias de dados de eventos todos os dias para produzir esses números. Um pipeline bastante inútil, mas simples. Deveria haver uma maneira de verificar os dados do evento apenas uma vez e combiná-los com os resultados dos 29 dias anteriores, certo? Podemos criar uma estrutura de dados onde um cientista de dados possa consultar nossos dados e saber facilmente o número de ações que um usuário realizou nos últimos N dias?

Este design é bastante simples com apenas 3 etapas:

A etapa da tabela diária

Nesta etapa agregamos apenas os eventos de hoje para ver quem está ativo diariamente. O esquema da tabela está aqui
Esta consulta é bastante simples e direta aqui
- GROUP BY user_id e conte-os como ativos diários se houver algum evento
- adicionamos algumas instruções COUNT(CASE WHEN event_type = 'like' THEN 1 END) para descobrir o número de curtidas, comentários e compartilhamentos diários também

A etapa de acumulação

O esquema da tabela para esta etapa está aqui
A consulta para esta etapa é muito mais complexa. Está aqui
- Nesta etapa pegamos os dados de hoje da tabela diária e os dados de ontem da tabela acumulada
- Nós FULL OUTER JOIN esses dois conjuntos de dados em today.user_id = yesterday.user_id
- Se um usuário for novo, ele não estará nos dados de ontem. Além disso, se um usuário não estava ativo hoje, ele não estará nos dados de hoje
- Portanto, precisamos COALESCE(today.user_id, yesterday.user_id) as user_id para acompanhar todos os usuários
- Em seguida, queremos construir a coluna activity_array . Queremos apenas que activity_array armazene os dados dos últimos 30 dias
  - Então, verificamos se CARDINALITY(activity_array) < 30 para entender se podemos apenas adicionar o valor de hoje à frente do array ou precisamos cortar um elemento do final do array antes de adicionar o valor de hoje à frente
  - Precisamos executar COALESCE(t.is_active_today, 0) para colocar valores zero no array quando um usuário não estiver ativo
- Seguimos um padrão muito semelhante ao modo como construímos activity_array mas também para curtidas, comentários e compartilhamentos!
- Depois de construirmos todas as nossas matrizes métricas, calcular a atividade semanal e mensal é bastante simples
  - CASE WHEN ARRAY_SUM(activity_array) > 0 THEN 1 ELSE 0 END nos fornece ativos mensais, pois limitamos o tamanho do array a 30
  - CASE WHEN ARRAY_SUM(SLICE(activity_array, 1, 7)) > 0 THEN 1 ELSE 0 END nos dá atividade semanal, pois verificamos apenas os primeiros 7 elementos do array (ou seja, os últimos 7 dias)
- Somar o número de curtidas, comentários e compartilhamentos nos últimos 7 dias também é fácil
  - ARRAY_SUM(SLICE(like_array, 1, 7)) as num_likes_7d nos dá o número de curtidas que este usuário fez nos últimos 7 dias
  - ARRAY_SUM(like_array) as num_likes_30d nos dá o número de curtidas que este usuário fez nos últimos 30 dias desde que o array foi fixado nesse tamanho

A etapa DAG

O exemplo DAG pode ser encontrado aqui
Os principais pontos a serem lembrados para o DAG são:
- DAGs cumulativos devem sempre ser depends_on_past: True
- A etapa de agregação diária precisa ser anterior à etapa de acumulação

Expandir

Informações adicionais

Versão
Tipo Outro código-fonte
Data da Última Atualização 2024-12-28
tamanho 28.37KB
Vindo de Github

Aplicativos Relacionados

ant design

2024-11-08
Design Casa Casa Makeo

2024-07-28
My Home Design Modern City versão móvel gratuita

2024-07-18
Projete o próximo iPhone

2024-02-21
Tizi Town Room Design Games versão móvel chinesa

2024-01-09
Tabela de Contos: A Coroa Torta

2022-08-01

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
waymo open dataset

Outro código-fonte

December 2023 Update
SmartTube

Outro código-fonte

24.71 Stable
Sunamu

Outro código-fonte

Release 2.2.0
waymo open dataset

Outro código-fonte

December 2023 Update
termwind

Outras categorias

v2.3.0
wp functions

Outras categorias

1.0.0

Informações Relacionadas Todos