[Introducción] TimeMixer ++ es un modelo innovador de análisis de series de tiempo que supera los modelos existentes en múltiples tareas a través de métodos de múltiples escalas y múltiples resoluciones. Demuestra una nueva perspectiva del análisis de series de tiempo y brinda beneficios a tareas como la predicción y la clasificación. precisión y flexibilidad.
En la era basada en datos, el análisis de series de tiempo se ha convertido en una parte integral de muchos campos, como la predicción del tiempo, la clasificación de síntomas médicos, la detección de anomalías de naves espaciales y el llenado de datos faltantes en los datos de sensores, etc. Estas aplicaciones involucran específicamente la predicción de series de tiempo. , clasificación, detección de anomalías, llenado de valores faltantes y otras tareas.
¿Cómo se puede utilizar un modelo para todas las tareas simultáneamente?
En los últimos años, una serie de trabajos, incluida la arquitectura Transformer, han demostrado un excelente rendimiento en tareas de segmentación, pero debido a la falta de capacidades de extracción de características temporales flexibles y universales, no pueden convertirse en una arquitectura de modelo universal.
Para resolver estos problemas, los equipos chinos del MIT, la Universidad de Ciencia y Tecnología de Hong Kong, la Universidad de Zhejiang y la Universidad Griffith lanzaron conjuntamente una nueva arquitectura de modelo profundo TimeMixer++, que puede realizar 8 tareas que incluyen predicción de series de tiempo de largo alcance, predicción de series de tiempo, clasificación de series de tiempo y detección de anomalías. El rendimiento en tareas de series de tiempo supera ampliamente a Transformer y otros modelos, lo que permite aplicaciones y modelado de series de tiempo universales.
Enlace del artículo: https://arxiv.org/pdf/2410.16032
La capacidad universal de TimeMixer++ se debe a su capacidad para extraer características de temporización universales. Para diferentes tareas, el modelo aprende de forma adaptativa diferentes representaciones de espacio latente, lo que muestra una gran flexibilidad y eficacia.
El artículo propone el concepto de "Máquina de patrones de series temporales" (TSPM) como modelo que puede funcionar bien en una amplia gama de tareas de cronometraje y debe poder extraer una variedad de características de cronometraje para adaptarse a los requisitos de la tarea. .
Las series de tiempo se toman muestras del mundo real continuo en diferentes escalas (como segundos, minutos, horas), y la periodicidad que se muestra en diferentes escalas es diferente. Esta característica multiescala y multiperiódica guió el diseño de la arquitectura del modelo.
Basado en información de dominio de tiempo (multiescala) y dominio de frecuencia (multifrecuencia/período), TimeMixer++ convierte cada serie de tiempo en una imagen de serie de tiempo de resolución múltiple (imágenes de tiempo de resolución múltiple) y asigna cada imagen de serie de tiempo en el El espacio de profundidad se realiza desacoplamiento y mezcla para finalmente extraer características de múltiples escalas y períodos.
La estructura de TimeMixer++ es similar a Transformer, incluyendo reducción de resolución, capa de incrustación (Proyección de entrada), MixerBlocks apilados en L y capa de salida. Entre ellos, cada MixerBlock incluye (1) imágenes de tiempo de resolución múltiple, (2) descomposición del diagrama de tiempo, (3) mezcla de múltiples escalas y (4) mezcla de resolución múltiple en orden.
Aquí presentamos brevemente las operaciones dentro de MixerBlock.
1. Imágenes de tiempo de resolución múltiple (MRTI): MRTI es responsable de plegar la temporización en múltiples escalas y períodos en función de la información del dominio de la frecuencia, obteniendo así múltiples conjuntos de diagramas de temporización.
2. Descomposición de imágenes en el tiempo (TID): TID desacopla la tendencia estacional de cada gráfico de series temporales a través del mecanismo de atención del eje horizontal y el eje vertical, y obtiene gráficos estacionales y gráficos de tendencias.
3. Mezcla de múltiples escalas (MCM): MCM es responsable de mezclar gráficos estacionales y gráficos de tendencias en diferentes escalas. En vista de la forma del gráfico, el documento utiliza operaciones de convolución y deconvolución.
MCM se basa en la estacionalidad y la mezcla de tendencias, agregando gradualmente mapas estacionales desde los de grano fino a los de grano grueso, y utilizando conocimientos previos de escala gruesa para extraer en profundidad información de macrotendencias, logrando en última instancia una mezcla de múltiples escalas en la extracción de información pasada. Para los gráficos de tendencias, se utiliza la agregación gradual de grano grueso a grano fino.
Para verificar el rendimiento de TimeMixer ++, el autor realizó pruebas en 8 tareas principales de series de tiempo, incluida la predicción de largo alcance, la predicción de corto alcance, la clasificación de series de tiempo, la detección de anomalías, el llenado y la predicción de pocas muestras/cero muestras. Los resultados experimentales muestran que TimeMixer ++ supera ampliamente el modelo Transformer de última generación en múltiples indicadores. El rendimiento específico es el siguiente:
En predicción de series temporales de largo plazo, TimeMixer++ supera a los modelos de predicción de los últimos años en 9/12 indicadores.
En tareas de predicción de corto alcance de una y varias variables, TimeMixer ++ supera a otros modelos en los últimos años en todos los aspectos.
En la tarea de completar los valores faltantes, TimeMixer++ también mantuvo su liderazgo, superando a otros modelos en casi todos los indicadores y datos.
En tareas de clasificación difíciles y tareas de detección de anomalías, TimeMixer++ aún logró los mejores resultados entre todos los modelos, derrotando a muchos modelos de cronometraje diseñados específicamente para esta tarea.
Bajo la configuración de predicción de muestra cero, TimeMixer++ logró el primer lugar en rendimiento, lo que indica que las características de temporización universal se extraen y no se deben a un sobreajuste.
A través del análisis visual, se muestra que TimeMixer ++ descompone la serie de tiempo en múltiples conjuntos de gráficos estacionales y gráficos de tendencias, y puede extraer completamente las características de la serie de tiempo desde la perspectiva del dominio del tiempo y de la frecuencia. Existen diferencias significativas en la estacionalidad y la tendencia bajo diferentes escalas y frecuencias.
TimeMixer++ demuestra una alta eficiencia en el uso de memoria y el tiempo de entrenamiento mientras mantiene puntuaciones MSE competitivas. En el llenado de datos meteorológicos y las tareas de predicción a largo plazo de ETTm1, en comparación con otros modelos, tiene un menor uso de memoria y un tiempo de entrenamiento más rápido, y puede capturar de manera efectiva dependencias de largo alcance.
El autor realizó experimentos de ablación para verificar la racionalidad de la arquitectura TimeMixer++. Los resultados muestran que el diseño del módulo multigrupo existente ha logrado resultados óptimos en la mayoría de los conjuntos de datos.
Este artículo presenta una nueva arquitectura de modelo profundo, TimeMixer ++, que supera ampliamente a Transformer y otros modelos en ocho tareas de análisis de series de tiempo e implementa con éxito aplicaciones y modelado de series de tiempo universales. La innovación de TimeMixer++ es convertir series de tiempo en imágenes y realizar la extracción de características en el dominio del tiempo, el dominio de la frecuencia, múltiples escalas y múltiples resoluciones, mejorando así el rendimiento del modelo.
El éxito de TimeMixer++ no sólo aporta nuevas ideas al campo del análisis de tiempos, sino que también demuestra una nueva perspectiva de la comprensión de los tiempos. En el futuro, con la introducción de más tecnologías de optimización y escenarios de aplicación, creo que TimeMixer ++ promoverá aún más el desarrollo de la tecnología de predicción de series de tiempo y aportará mayor valor a diversas industrias.