LSTM与Transformer结合:15篇前沿研究综述
LSTM与Transformer结合:15篇前沿研究综述
深度学习领域的探索不断推动着模型性能的提升与创新。LSTM与Transformer的结合不仅整合了长期依赖关系的捕捉优势,还利用了Transformer在并行计算上的高效能力,显著改善了时间序列数据处理的效率与准确性。
近年来,这一混合模型在多任务实时预测中表现尤为突出。比如登上Nature子刊的最新混合架构LSTM-Transformer,即使数据保留率为50%,模型性能依然最优!
本文总结了最近两年LSTM与Transformer结合相关的15篇前沿研究成果,这些研究涵盖了多个领域,包括工程系统预测、降雨径流模拟、交通流量预测等。
1. Advanced hybrid LSTM-transformer architecture for real-time multi-task prediction in engineering systems
该论文提出了一种新颖的LSTM-Transformer混合架构,专门用于多任务实时预测。该模型结合了LSTM和Transformer架构的核心优势,通过在线学习和知识蒸馏技术,动态适应可变的操作条件并持续吸收新的现场数据。
创新点:
- 提出了一种新颖的LSTM-Transformer混合架构,专门用于多任务实时预测。该模型结合了LSTM和Transformer的核心优势,提供了一种优于传统预测模型的替代方案。
- 使用在线学习技术,使模型能够动态适应变化的操作条件,并不断融入新的现场数据。
- 利用知识蒸馏技术,有效地将大型预训练网络的洞察力转移给较小、预先训练网络,从而在不牺牲计算资源的情况下实现高精度的预测。
2. Block-Recurrent Transformer
块循环Transformer (Block Recurrent Transformer)是一种变体的Transformer模型,它在序列建模中引入了循环结构。通过引入循环连接, 块循环Transformer解决了传统的Transformer模型由于每个位置都需要与其他位置进行交互计算,导致计算复杂度较高而对于长序列建模受限制的问题。
它将输入序列分成多个块,并在每个块内使用自注意力机制建模块内的依赖关系。然后,每个块的输出会作为下一个块的输入,并且循环连接使得模型能够逐步获取全局信息。这种方式可以减少计算复杂度,并且具有一定程度的并行化能力。
创新点:
- 设计在一定程度上受到 LSTM 单元的启发,它使用 LSTM 样式的门,但它将典型的 LSTM 单元放大了几个数量级。
- 递归实现在计算时间和参数数量上都与传统的转换器层具有相同的成本,但在非常长的序列上,语言建模任务的困惑度大大提高。
- 模型的性能远远超过远程 Transformer XL 基线,同时运行速度是其两倍。
3. Application of a hybrid algorithm of LSTM and Transformer based on random search optimization for improving rainfall-runoff simulation
该研究提出了一种基于LSTM和Transformer的混合算法,用于改进降雨径流模拟。模型在输入部分集成了一个LSTM层,以方便时间序列数据的特征提取和重建。改进后的LSTM-Transformer模型结构图如下图所示。
该模型由几个组件组成:一个具有隐藏层的LSTM层、多个编码层和一个输出层。编码层包括多头注意力层、残差和归一化以及具有两层一维卷积的卷积层。卷积层用于从数据中提取深层特征,通过权重共享和稀疏连接减少训练参数的数量,从而提高前向传播效率。
此外,模型中还加入了脱落层以防止模型过度拟合。输出层包含一个全局平均池化层,将多维输入转换为一维表示。随后,将输出结果与LSTM层进行向量拼接,并经过另一个全连接层进行最终输出。然后采用RS优化算法来构建具有最佳参数的最优RS-LSTM-Transformer模型。
创新点:
- 本研究提出了一种混合模型,即RS-LSTM-Transformer模型,旨在改善降雨径流过程的模拟。
- 该模型基于Transformer模型结构进行改进的基础上,耦合了LSTM层,并结合Randomized Search优化算法进行参数寻优。
- 在预见期1-6h下,与RS-LSTM、RS-Transformer、RS-BP和RS-MLP模型相比,RS-LSTM-Transformer都保持了最佳的表现,并具有良好的鲁棒性和稳定性。
4. Rainfall-runoff modeling using LSTM-based multi-state-vector sequence-to-sequence model
基于LSTM的序列到序列(LSTM-S2S)模型在多步提前径流预测中表现良好,提出了一种新的数据驱动模型,即基于LSTM的多状态向量序列到序列(LSTM-MSVS2S)降雨径流模型,该模型包含m个多个状态向量,用于m阶头径流预测。
通过对673个盆地的LSTM-MSV-S2S模型和2个基准模型进行训练和测试,该模型在5个评价指标上总体表现较好。我们将模型的NSE与LSTM-S2S-a模型在每个流域进行了7天径流预测。
创新点:
- 与已有的LSTM-S2S降雨径流模型相比,该模型遵循因果关系,与实际情况一致。
- 不同于现有的仅使用一个状态向量的LSTM-S2S降雨径流模型,更适合于多日前的径流预测。
5. LSTTN: A Long-Short Term Transformer-based Spatio-temporal Neural Network for Traffic Flow Forecasting
本文提出了一种名为LSTTN的新型交通流量预测框架,该框架综合考虑了历史交通流量中的长期特征和短期特征,以获得更准确的预测结果。LSTTN模型通过集成长期趋势、周期性和短期趋势的特征来改善预测准确性。
创新点:
- 提出了一种基于Transformer的交通流量预测框架LSTTN,该框架可以充分利用长时间序列中的长期趋势和周期性特征,以提高预测准确性。
- 在提出的框架中设计了具体的模块,包括使用掩码子序列Transformer进行预训练,通过堆叠的1D扩张卷积层提取长期趋势,以及使用动态图卷积层提取周期性特征。
- 在四个实际数据集上进行了实验评估,结果表明LSTTN模型在所有预测时间段上都优于基线模型。在四个真实世界的数据集上相比基线模型实现了最小5.63%和最大16.78%的性能提升。
其他相关研究
除了上述研究,近年来还有许多其他关于LSTM与Transformer结合的研究,包括但不限于:
LSTM-Transformer在金融时间序列预测中的应用:研究者将LSTM-Transformer应用于股票价格预测,通过结合LSTM的长期依赖捕捉能力和Transformer的并行计算优势,提高了预测精度。
基于LSTM-Transformer的医疗时间序列分析:在医疗领域,研究者将LSTM-Transformer应用于心电图(ECG)信号分析和疾病预测,通过结合两种模型的优势,提高了诊断的准确性和效率。
LSTM-Transformer在自然语言处理中的应用:研究者将LSTM-Transformer应用于机器翻译、文本生成等任务,通过结合LSTM的序列建模能力和Transformer的并行计算优势,提高了模型的性能和效率。
基于LSTM-Transformer的视频行为识别:研究者将LSTM-Transformer应用于视频行为识别任务,通过结合LSTM的时间序列建模能力和Transformer的空间特征提取能力,提高了行为识别的准确性和鲁棒性。
这些研究进一步证明了LSTM与Transformer结合在多个领域的广泛应用前景和潜力。