Descarga cumulative table design - cumulative table design Descarga de código fuente

cumulative table design

Otro código fuente

Descargar

Diseño de tabla acumulativa

El diseño de tablas acumulativas es una herramienta de ingeniería de datos extremadamente poderosa que todos los ingenieros de datos deberían conocer.

Este diseño produce tablas que pueden proporcionar análisis eficientes en períodos de tiempo arbitrariamente grandes (hasta miles de días).

A continuación se muestra un diagrama del diseño de canalización de alto nivel para este patrón:

Diagrama de tabla acumulativa

Inicialmente construimos nuestra tabla de métricas diarias que está en la esencia de cualquiera que sea nuestra entidad. Estos datos se derivan de cualquier fuente de eventos que tengamos en sentido ascendente.

Después de tener nuestras métricas diarias, FULL OUTER JOIN la tabla acumulativa de ayer con los datos diarios de hoy y creamos nuestras matrices de métricas para cada usuario. Esto nos permite incorporar el nuevo historial sin tener que escanearlo todo. (un gran aumento de rendimiento)

Estas matrices de métricas nos permiten responder fácilmente consultas sobre el historial de todos los usuarios usando cosas como ARRAY_SUM para calcular cualquier métrica que queramos en cualquier período de tiempo que permita la matriz.

¡¡Cuanto más largo sea el período de su análisis, más crítico se vuelve este patrón!!

Ejemplo de actividad e interacción del usuario acumuladas

Toda la sintaxis de consulta utiliza la sintaxis y funciones de Presto/Trino. ¡Este ejemplo debería modificarse para otras variantes de SQL!
Usaremos las fechas:
2022-01-01 como hoy en términos de flujo de aire, esto es {{ ds }}
2021-12-31 como ayer en términos de plantillas de Airflow, esto es {{ yesterday_ds}}

En este ejemplo, veremos cómo crear este diseño para calcular los usuarios activos diarios, semanales y mensuales, así como los me gusta, los comentarios y las acciones de los usuarios.

Nuestra tabla fuente en este caso es events .

Un usuario está activo en un día determinado si genera un evento para ese día.
La tabla tiene event_type que es like , comment , share o view

Es tentador pensar que la solución a esto es ejecutar una canalización similar a

    SELECT 
        COUNT(DISTINCT user_id) as num_monthly_active_users,
        COUNT(CASE WHEN event_type = 'like' THEN 1 END) as num_likes_30d,
        COUNT(CASE WHEN event_type = 'comment' THEN 1 END) as num_comments_30d,
        COUNT(CASE WHEN event_type = 'share' THEN 1 END) as num_shares_30d,
        ...
    FROM events
    WHERE event_date BETWEEN DATE_SUB('2022-01-01', 30), AND '2022-01-01'

El problema con esto es que estamos escaneando 30 días de datos de eventos todos los días para producir estos números. Una tubería bastante derrochadora, pero simple. Debería haber una manera en la que solo tengamos que escanear los datos del evento una vez y combinarlos con los resultados de los 29 días anteriores, ¿verdad? ¿Podemos crear una estructura de datos donde un científico de datos pueda consultar nuestros datos y saber fácilmente la cantidad de acciones que realizó un usuario en los últimos N días?

Este diseño es bastante simple con solo 3 pasos:

El paso de la tabla diaria

En este paso agregamos solo los eventos de hoy para ver quién está activo diariamente. El esquema de la tabla está aquí.
Esta consulta es bastante simple y directa aquí.
- GROUP BY user_id y luego cuéntelos como activos diarios si tienen algún evento
- Agregamos algunas declaraciones COUNT(CASE WHEN event_type = 'like' THEN 1 END) para calcular también la cantidad de me gusta, comentarios y acciones compartidas diarias.

El paso de acumulación

El esquema de tabla para este paso está aquí.
La consulta para este paso es mucho más compleja. esta aqui
- En este paso tomamos los datos de hoy de la tabla diaria y los datos de ayer de la tabla acumulada.
- UNIMOS FULL OUTER JOIN estos dos conjuntos de datos en today.user_id = yesterday.user_id
- Si un usuario es nuevo, no estará en los datos de ayer. Además, si un usuario no estuvo activo hoy, no estará en los datos de hoy.
- Entonces necesitamos COALESCE(today.user_id, yesterday.user_id) as user_id para realizar un seguimiento de todos los usuarios.
- A continuación queremos construir la columna activity_array . Solo queremos que activity_array almacene los datos de los últimos 30 días.
  - Así que verificamos si CARDINALITY(activity_array) < 30 para entender si podemos simplemente agregar el valor de hoy al frente de la matriz o si necesitamos cortar un elemento del final de la matriz antes de agregar el valor de hoy al frente.
  - Necesitamos realizar COALESCE(t.is_active_today, 0) para poner valores cero en la matriz cuando un usuario no está activo
- Seguimos un patrón muy similar al de cómo construimos activity_array ¡pero también para Me gusta, comentarios y recursos compartidos!
- Después de crear todas nuestras matrices de métricas, calcular la actividad semanal y mensual es bastante sencillo.
  - CASE WHEN ARRAY_SUM(activity_array) > 0 THEN 1 ELSE 0 END nos da activos mensuales ya que limitamos el tamaño de la matriz a 30
  - CASE WHEN ARRAY_SUM(SLICE(activity_array, 1, 7)) > 0 THEN 1 ELSE 0 END nos da actividad semanal ya que solo verificamos los primeros 7 elementos de la matriz (es decir, los últimos 7 días)
- También es fácil sumar la cantidad de me gusta, comentarios y acciones compartidas en los últimos 7 días.
  - ARRAY_SUM(SLICE(like_array, 1, 7)) as num_likes_7d nos da la cantidad de Me gusta que hizo este usuario en los últimos 7 días
  - ARRAY_SUM(like_array) as num_likes_30d nos da la cantidad de Me gusta que hizo este usuario en los últimos 30 días desde que la matriz se fijó en ese tamaño.

El paso DAG

El DAG de ejemplo se puede encontrar aquí.
Los aspectos clave que debe recordar el DAG son:
- Los DAG acumulativos siempre deben ser depends_on_past: True
- El paso de agregación diaria debe estar anterior al paso de acumulación.

Expandir

Información adicional

Versión
Tipo Otro código fuente
Fecha de actualización 2024-12-28
tamaño 28.37KB
Proviene de Github

Aplicaciones relacionadas

ant design

2024-11-08
Diseño Casa Casa Makeo

2024-07-28
My Home Design Modern City versión móvil gratuita

2024-07-18
Diseña el próximo iPhone

2024-02-21
Tizi Town Room Design Games versión móvil china

2024-01-09
Tabla de cuentos: La corona torcida

2022-08-01

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
waymo open dataset

Otro código fuente

December 2023 Update
SmartTube

Otro código fuente

24.71 Stable
Sunamu

Otro código fuente

Release 2.2.0
waymo open dataset

Otro código fuente

December 2023 Update
termwind

Otras categorias

v2.3.0
wp functions

Otras categorias

1.0.0

Información relacionada Todo