超越Transformer，全面升级！MIT等华人团队发布通用时序TimeMixer++架构，8项任务全面领先

作者：Eve Cole 更新时间：2024-11-14 11:42:01

【导读】TimeMixer++是一个创新的时间序列分析模型，通过多尺度和多分辨率的方法在多个任务上超越了现有模型，展示了时间序列分析的新视角，在预测和分类等任务带来了更高的准确性和灵活性。

在数据驱动的时代，时间序列分析成为了许多领域中不可或缺的一部分，比如气象预测、医学症状分类、航天器的异常检测、以及传感器数据中缺失数据的填充等等，这些应用具体涉及到时间序列预测、分类、异常检测、缺失值填充等任务。

如何使用一个模型，同时胜任所有任务？

近些年来，包括Transformer架构在内的一系列工作，虽然在细分任务上展现出色的性能，但由于缺乏灵活和通用的时序特征的提取能力，无法成为通用的模型架构。

为了解决这些问题，来自MIT、港科大、浙大以及格里菲斯大学的华人团队联合推出了一种全新的深度模型架构TimeMixer++，在长程时序预测、短程时序预测、时序分类、异常检测等8项时序任务上的效能全面超越了Transformer等模型，实现了通用的时间序列建模和应用。

论文链接：https://arxiv.org/pdf/2410.16032

TimeMixer++的通用能力得益于其能够提取通用的时序特征，针对不同任务，模型自适应地学习了不同的隐空间表征，展现出强大的灵活度和有效性。

设计动机

论文提出了「时序特征机器」(Time Series Pattern Machine, TSPM)的概念，作为一个能在广泛时序任务中表现出色的模型，必须能提取各种各样的时序特征，以适应任务的要求。

时间序列是从连续的现实世界中以不同尺度进行采样得到的（如秒、分钟、小时），而不同尺度下展现的周期性是不同的。该多尺度、多周期性的特性，引导了模型架构的设计。

TimeMixer++

核心效果

TimeMixer++基于时域（多尺度）和频域（多频率/周期）的信息，将每一条时间序列转化为多分辨率时序图(Multi-Resolution Time Images)，并对每一个时序图在深度空间中进行解耦和混合，最终提取多尺度、多周期的特征。

整体结构

TimeMixer++的结构类似Transformer，包括了下采样、嵌入层(Input Projection)，L个堆叠的MixerBlocks、和输出层。其中，每个MixerBlock内部，按顺序包括了 (1) 多分辨率时间成像，(2) 时序图分解，(3) 多尺度混合，和 (4) 多分辨率混合。

我们在此简单介绍MixerBlock内的操作，

1. Multi-Resolution Time Imaging (MRTI）：MRTI负责根据频域信息，将时序进行多尺度、多周期的折叠，从而得到多组时序图。

2. Time Image Decomposition (TID）：TID通过横轴和纵轴两个轴向的注意力机制，从每一个时序图中解耦季节-趋势，得到季节图和趋势图。

3. Multi-Scale Mixing (MCM)：MCM负责将不同尺度上的季节图和趋势图分别进行混合，鉴于图的形式，论文采用了卷积和反卷积的操作。

MCM以季节和趋势混合为动力，将季节图由细粒度到粗粒度逐步聚合，并利用较粗尺度的先验知识深入挖掘宏观趋势信息，最终实现过去信息提取中的多尺度混合。对趋势图，则采用由粗粒度到细粒度的逐步聚合。

模型效果

为了验证TimeMixer++的性能，作者在包含长程预测，短程预测，时序分类，异常检测，填充，少样本/零样本预测等8个时序主流任务上进行测试。实验结果表明，TimeMixer++在多个指标上全面超越了当前最先进的Transformer模型，具体表现如下：

在长程时序预测中，TimeMixer++在9/12的指标上超越了近几年的预测模型。

在单变量和多变量的短程预测任务中，TimeMixer++全方位超越了近几年的其他模型。

在缺失值填充任务中，TimeMixer++同样保持了领先优势，在几乎所有指标和数据上超越了其他模型。

在困难的分类任务和异常检测任务中，TimeMixer++依然在所有模型中取得了最好的效果，打败了诸多专为该任务设计的时序模型。

在零样本预测的设置下，TimeMixer++表现取得了第一，说明提取到通用的时序特征，而并非得益于过拟合。

表征分析

通过可视化分析，表明TimeMixer++将时间序列分解为多组季节图和趋势图，可以从时域和频域两个角度，全方位提取时序的特征。不同尺度和频率条件下，季节性和趋势性有显著差异。

效率分析

TimeMixer++在内存占用和训练时间上表现出高效性，同时保持了有竞争力的MSE分数。在天气数据填补和ETTm1长期预测任务中，相较于其他模型，具备更低的内存占用和较快的训练时间，且能有效捕捉长程依赖关系。

消融实验

作者进行了消融实验验证TimeMixer++架构的合理性。结果表明已有的多组模块设计在绝大部分数据集上都取得了最优效果。

总结

本文介绍了一种全新的深度模型架构TimeMixer++，在8个时间序列分析任务中全面超越了Transformer等模型，成功实现了通用的时间序列建模与应用。TimeMixer++的创新之处在于将时间序列转化为图像，并在时域与频域、多尺度、多分辨率下进行特征提取，从而提升了模型的表现。

TimeMixer++的成功不仅为时序分析领域带来了新的思路，也展示了一种全新的时序理解视角。未来，随着更多优化技术和应用场景的引入，相信TimeMixer++将进一步推动时序预测技术的发展，为各行业带来更大的价值。