传统RNN新突破！Bengio团队提出minGRUs和minLSTMs

创作时间:

作者:

@小白创作中心

传统RNN新突破！Bengio团队提出minGRUs和minLSTMs

引用

CSDN

https://blog.csdn.net/amusi1994/article/details/142818650

深度学习三巨头之一的Yoshua Bengio团队发布了一篇新论文，重新审视了十多年前的传统循环神经网络（RNNs），即长短期记忆网络（LSTMs）和门控循环单元（GRUs）。通过去除隐藏状态依赖和一些约束条件，他们提出了最小化版本（minLSTMs 和 minGRUs），这些版本在训练时可并行计算，且参数显著减少，同时在多个任务上与近期的序列模型性能相当。

研究背景

Transformer 的局限

近年来，Transformer 在很多领域占主导地位，但它在序列长度上具有二次计算复杂度，对于长序列成本过高。因此，人们开始研究更高效的替代方案，如循环序列模型，其在训练时对序列长度具有线性内存需求，推理时逐个 token 循环展开，只需常数内存。

传统 RNN 回顾

LSTM：通过输入门、遗忘门和输出门来控制细胞状态和隐藏状态的更新，缓解了梯度消失问题，但计算复杂且只能顺序计算，训练时需要通过时间反向传播（BPTT），难以扩展到长序列。
GRU：简化了 LSTM，只有两个门和一个状态，训练和推理速度更快，但同样存在只能顺序计算和需要 BPTT 的问题。

方法与实验结果

minGRU

步骤一：去除门的先前隐藏状态依赖，将 GRU 的更新门和候选隐藏状态的计算从依赖于先前隐藏状态和当前输入，改为仅依赖于当前输入。
步骤二：去除候选状态的范围限制，去掉了双曲正切函数（tanh）对候选隐藏状态的范围限制。

结果：得到的 minGRU 模型参数数量显著减少，仅需个参数，且可使用并行扫描算法进行训练。

minLSTM

步骤一：去除门的先前隐藏状态依赖，类似 minGRU，将 LSTM 的遗忘门、输入门和候选细胞状态的计算改为仅依赖于当前输入。
步骤二：去除候选状态的范围限制，去掉 tanh 对候选细胞状态和隐藏状态的范围限制。
步骤三：确保输出在尺度上与时间无关，通过归一化遗忘门和输入门，确保细胞状态的尺度与时间无关，并去掉输出门，进一步简化模型。

结果：minLSTM 模型仅需个参数，可并行训练。

实验结果

训练效率
运行时间：在不同序列长度下，minGRU 和 minLSTM 与 Mamba 的运行时间相近。对于长度为 512 的序列，minGRU 和 minLSTM 在 T4 GPU 上每个训练步骤分别比 GRU 和 LSTM 快和；对于长度为 4096 的序列，分别快和。
内存占用：minGRU、minLSTM 和 Mamba 由于使用并行扫描算法，相比传统 RNN 需要更多内存，minGRU 和 minLSTM 比传统版本多使用约的内存，Mamba 比 minGRU 多使用的内存。
层数影响：增加 minLSTM 和 minGRU 的层数可提高模型性能和稳定性，minGRU 在解决选择性复制任务时比 minLSTM 更稳定。
性能表现
选择性复制任务：minGRU 和 minLSTM 能够解决该任务，性能与 Mamba 的 S6 相当，优于其他一些基线模型。
强化学习任务：在 D4RL 数据集上，minLSTM 和 minGRU 优于 Decision S4，与 Decision Transformer、Aaren 和 Mamba 性能相当。
语言建模任务：在莎士比亚数据集上，minGRU、minLSTM 与 Mamba 和 Transformer 的测试损失相当，Transformer 训练速度明显较慢。

结论与优劣分析

通过对传统 RNNs（LSTMs 和 GRUs）的深入研究和改进，成功提出了 minLSTMs 和 minGRUs 这两种最小化版本的模型。实验结果表明，minLSTMs 和 minGRUs 在多个方面取得了显著成果。它们解决了传统 RNNs 在训练效率上的计算局限，能够高效地利用并行计算资源进行训练，在不同的任务场景下，包括选择性复制任务、强化学习任务以及语言建模任务等，都展现出了与现代先进的序列模型（如 Mamba、Transformer 等）相当的性能。这一研究成果重新审视了传统 RNNs 的价值，表明经过合理的改进和优化，传统的 RNN 结构仍然具有强大的生命力和应用潜力，为序列数据处理领域提供了新的思路和方法。

优劣分析

（1）优势

训练效率提升
参数减少：minLSTMs 和 minGRUs 相较于传统的 LSTMs 和 GRUs，显著减少了参数数量。minGRU 仅需个参数，minLSTM 仅需个参数，这使得模型在训练和存储上更加高效。
并行训练：这两种模型可以使用并行扫描算法进行训练，摆脱了传统 RNNs 对时间反向传播（BPTT）的依赖，大大提高了训练速度。例如，在序列长度为 512 时，minGRU 和 minLSTM 在 T4 GPU 上每个训练步骤分别比 GRU 和 LSTM 快和。
性能表现良好
在多个任务中，minLSTMs 和 minGRUs 都展现出了与现代先进序列模型相当的性能。在选择性复制任务中，能够像 Mamba 的 S6 一样解决问题，优于其他一些基线模型；在强化学习任务中，在 D4RL 数据集上优于 Decision S4，与 Decision Transformer、Aaren 和 Mamba 性能相当；在语言建模任务中，在莎士比亚数据集上与 Mamba 和 Transformer 的测试损失相当。
模型稳定性
随着层数的增加，minLSTMs 和 minGRUs 的性能和稳定性都有所提高。例如在选择性复制任务中，层数增加到 3 层时，minLSTM 的准确率达到，minGRU 的准确率达到，同时方差减小，表明模型更加稳定。并且 minGRU 在解决选择性复制任务时比 minLSTM 更稳定，因为 minGRU 通过单一的更新门控制信息的丢弃和添加，更容易优化。

（2）劣势

内存占用增加
minLSTMs 和 minGRUs 由于采用并行扫描算法，相比传统 RNNs 需要更多的内存。它们比传统版本多使用约的内存，这在内存资源有限的环境下可能会成为应用的限制因素。
实验规模受限
研究中的实验是在 P100 和 T4 GPU 上进行的，规模相对较小。例如在选择性复制任务中，为了适应 GPU 内存，需要使用梯度累积来训练，这导致训练速度减慢。虽然作者认为结论可以推广到更大规模的设置，但目前缺乏大规模实验的直接验证。

热门推荐

日常生活中可以替代盐的食物，你知道几个？