超越Transformer，全面升級！ MIT等華人團隊發布通用時序TimeMixer++架構，8項任務全面領先

作者：Eve Cole 更新時間：2024-11-14 11:42:01

【導讀】 TimeMixer++是一個創新的時間序列分析模型，透過多尺度和多解析度的方法在多個任務上超越了現有模型，展示了時間序列分析的新視角，在預測和分類等任務帶來了更高的準確性和靈活性。

在資料驅動的時代，時間序列分析成為了許多領域中不可或缺的一部分，例如氣象預測、醫學症狀分類、太空船的異常檢測、以及感測器資料中缺失資料的填充等等，這些應用具體涉及到時間序列預測、分類、異常檢測、缺失值填充等任務。

如何使用一個模型，同時勝任所有任務？

近年來，包括Transformer架構在內的一系列工作，雖然在細分任務上展現出色的性能，但由於缺乏靈活和通用的時序特徵的提取能力，無法成為通用的模型架構。

為了解決這些問題，來自MIT、港科大、浙大以及格里菲斯大學的華人團隊聯合推出了一種全新的深度模型架構TimeMixer++，在長程時序預測、短程時序預測、時序分類、異常檢測等8項時序任務上的效能全面超越了Transformer等模型，實現了通用的時間序列建模與應用。

論文連結：https://arxiv.org/pdf/2410.16032

TimeMixer++的通用能力得益於其能夠提取通用的時序特徵，針對不同任務，模型自適應地學習了不同的隱空間表徵，展現出強大的靈活度和有效性。

設計動機

論文提出了「時序特徵機器」(Time Series Pattern Machine, TSPM)的概念，作為一個能在廣泛時序任務中表現出色的模型，必須能提取各種各樣的時序特徵，以適應任務的要求。

時間序列是從連續的現實世界以不同尺度進行採樣而得到的（如秒、分鐘、小時），而不同尺度下展現的週期性是不同的。此多尺度、多週期性的特性，引導了模型架構的設計。

TimeMixer++基於時域（多尺度）和頻域（多頻率/週期）的訊息，將每一條時間序列轉換為多解析度時序圖(Multi-Resolution Time Images)，並對每一個時序圖在深度空間中進行解耦和混合，最終提取多尺度、多周期的特徵。

TimeMixer++的結構類似Transformer，包含了下取樣、嵌入層(Input Projection)，L個堆疊的MixerBlocks、和輸出層。其中，每個MixerBlock內部，依序包含了(1) 多解析度時間成像，(2) 時序圖分解，(3) 多尺度混合，和(4) 多解析度混合。

我們在此簡單介紹MixerBlock內的操作，

1. Multi-Resolution Time Imaging (MRTI）： MRTI負責根據頻域訊息，將時序進行多尺度、多周期的折疊，從而得到多組時序圖。

2. Time Image Decomposition (TID）： TID透過橫軸和縱軸兩個軸向的注意力機制，從每一個時序圖中解耦季節-趨勢，得到季節圖和趨勢圖。

3. Multi-Scale Mixing (MCM)： MCM負責將不同尺度上的季節圖和趨勢圖分別進行混合，鑑於圖的形式，論文採用了卷積和反捲積的操作。

MCM以季節和趨勢混合為動力，將季節圖由細粒度到粗粒度逐步聚合，並利用較粗尺度的先驗知識深入挖掘宏觀趨勢信息，最終實現過去信息提取中的多尺度混合。對趨勢圖，則採用由粗粒度到細粒度的逐步聚合。

為了驗證TimeMixer++的性能，作者在包含長程預測，短程預測，時序分類，異常檢測，填充，少樣本/零樣本預測等8個時序主流任務上進行測試。實驗結果表明，TimeMixer++在多個指標上全面超越了目前最先進的Transformer模型，具體表現如下：

在長程時序預測中，TimeMixer++在9/12的指標上超越了近幾年的預測模型。

在單變量和多變量的短程預測任務中，TimeMixer++全方位超越了近幾年的其他模型。

在缺失值填充任務中，TimeMixer++同樣保持了領先優勢，在幾乎所有指標和數據上超越了其他模型。

在困難的分類任務和異常檢測任務中，TimeMixer++依然在所有模型中取得了最好的效果，打敗了許多專為該任務設計的時序模型。

在零樣本預測的設定下，TimeMixer++表現取得了第一，說明提取到通用的時序特徵，而並非得益於過擬合。

透過視覺化分析，顯示TimeMixer++將時間序列分解為多組季節圖和趨勢圖，可以從時域和頻域兩個角度，全方位提取時序的特徵。不同尺度和頻率條件下，季節性和趨勢性有顯著差異。

TimeMixer++在記憶體佔用和訓練時間上表現出高效性，同時保持了有競爭力的MSE分數。在天氣資料填補和ETTm1長期預測任務中，相較於其他模型，具備更低的記憶體佔用和較快的訓練時間，且能有效捕捉長程依賴關係。

作者進行了消融實驗驗證TimeMixer++架構的合理性。結果顯示已有的多組模組設計在絕大部分資料集上都取得了最優效果。

本文介紹了一種全新的深度模型架構TimeMixer++，在8個時間序列分析任務中全面超越了Transformer等模型，成功實現了通用的時間序列建模與應用。 TimeMixer++的創新之處在於將時間序列轉換為影像，並在時域與頻域、多尺度、多解析度下進行特徵提取，從而提升了模型的表現。

TimeMixer++的成功不僅為時序分析領域帶來了新的思路，也展現了一種全新的時序理解視角。未來，隨著更多優化技術和應用情境的引入，相信TimeMixer++將進一步推動時序預測技術的發展，為各產業帶來更大的價值。