FEDformer:一种用于长期时间序列预测的频率增强分解Transformer
FEDformer:一种用于长期时间序列预测的频率增强分解Transformer
FEDformer是一种用于长期时间序列预测的频率增强分解Transformer模型。该模型通过将Transformer与季节-趋势分解方法相结合,并利用时间序列在傅里叶变换等基底中的稀疏表示,实现了更有效的长期预测。实验结果表明,FEDformer在多个基准数据集上相比现有方法有显著提升。
摘要
尽管基于Transformer的方法显著提升了长时间序列预测的最新成果,但它们不仅计算开销高,更重要的是无法捕捉时间序列的全局视图(例如整体趋势)。为了解决这些问题,研究者提出将Transformer与季节-趋势分解方法相结合,其中分解方法捕捉时间序列的全局概貌,而Transformer则捕捉更详细的结构。为了进一步提升Transformer在长期预测中的性能,研究者利用了大多数时间序列在诸如傅里叶变换等知名基底中具有稀疏表示的事实,并开发了一种频率增强Transformer。所提出的方法称为频率增强分解Transformer(FEDformer),不仅更有效,而且相较于标准Transformer具有线性复杂度的序列长度效率。实证研究表明,FEDformer相比于最新方法,可以分别减少多变量和单变量时间序列的预测误差14.8%和22.6%。
介绍
长期时间序列预测在多个应用领域(如能源、天气、交通、经济等)中是一个长期存在的挑战。尽管RNN类方法取得了令人印象深刻的成果,但它们常常遭遇梯度消失或爆炸问题,严重限制了其性能。受NLP和CV领域近期成功的启发,Transformer被引入以捕捉时间序列预测中的长期依赖关系,并显示出良好的结果。由于高计算复杂度和内存需求使得Transformer难以应用于长序列建模,许多研究致力于降低Transformer的计算成本。
尽管基于Transformer的方法在时间序列预测中取得了进展,但在某些情况下,它们往往无法捕捉时间序列的整体特征/分布。为了解决这一问题,研究者采用了两个思路。第一个思路是将广泛应用于时间序列分析的季节趋势分解方法引入基于Transformer的方法。第二个思路是将傅里叶分析与基于Transformer的方法结合。研究者不是将Transformer应用于时间域,而是应用于频率域,这有助于Transformer更好地捕捉时间序列的全局特性。结合这两个思路,研究者提出了一种用于长期时间序列预测的频率增强分解Transformer(FEDformer)。除了更适合长期预测外,将Transformer与频率分析结合还使研究者能够将Transformer的计算成本从二次复杂度降低到线性复杂度。
模型结构
长期时间序列预测是一个序列到序列的问题。研究者用I表示输入长度,用o表示输出长度,用D表示序列的隐藏状态。编码器的输入维度I × D,解码器输入维度:(I/2 + O) × D。研究者将Transformer改造为深度分解架构,包括频率增强块(FEB),频率增强注意(FEA)连接编码器和解码器,以及混合专家分解块(MOEDecomp)。
编码器采用多层结构:
解码器也采用多层结构:
研究者提出了两个不同的版本(FEB-f和FEB-w),分别通过离散傅立叶变换(DFT)和离散小波变换(DWT)机制实现。对于FEA,也有两个不同的版本(FEA-f和FEA-w),分别通过DFT和DWT投影实现,并采用注意设计,可以替代交叉注意块。
实验
为了评估所提出的FEDformer,研究者在六个流行的现实世界数据集上进行了广泛的实验,这些数据集包括能源、经济、交通、天气和疾病。实验结果表明,FEDformer在所有数据集上都达到了最佳性能,与Autoformer相比,所提出的FEDformer总体上相对MSE降低了14.8%(多变量预测)和22.6%(单变量预测)。
总结
FEDformer是一种频率增强Transformer模型用于长期序列预测,该模型在计算复杂度和内存成本方面具有线性表现,并且实现了最新的性能。研究者提出了一种基于频率的低秩近似注意机制和一种专家混合分解方法来控制分布漂移。所提出的频率增强结构将输入序列长度和注意力矩阵维度解耦,从而实现线性复杂度。此外,从理论和实证上证明了采用的随机模式选择策略在频域中的有效性。最后,大量实验表明,与四种最新算法相比,所提出的模型在六个基准数据集上实现了最佳的预测性能。