问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

不是RNN的锅！清华团队深入分析长上下文建模中的状态崩溃，Mamba作者点赞

创作时间:

作者:

@小白创作中心

不是RNN的锅！清华团队深入分析长上下文建模中的状态崩溃，Mamba作者点赞

引用

网易

1.

https://www.163.com/dy/article/JI0MH3MB0511ABV6.html

【新智元导读】RNN模型在长上下文中的表现一直备受关注。近日，来自清华大学的研究团队对这一问题进行了深入的实验分析，揭示了RNN模型在长上下文中面临的主要挑战，并提出了有效的解决方案。这项研究得到了Mamba作者Albert Gu的高度评价。

与Transformer相比，RNN模型的一大优势是应对长序列的能力。例如，Mamba模型的内部状态大小始终保持不变，计算随序列长度线性增长，这使得它在处理长序列时具有较高的效率。

然而，实际情况是，目前的这些RNN模型在长上下文中的有效性并不能令人满意。为了解决这一问题，来自清华大学的研究团队进行了深入的实验研究。

研究发现：两个主要问题

研究团队发现，Mamba这类RNN模型在长上下文中主要面临两个问题：

无法推断比训练长度更长的输入：这是由于较短的训练数据导致了循环状态过拟合。
内存容量的上限：由于模型无法有效遗忘很久以前的信息，导致新的信息存不进来了。

解决方案

针对上述问题，研究团队提出了三种解决方案：

Method 1: Forget More and Remember Less
通过增加状态衰减量（忘记更多）或减少输入信息的数量（记住更少）来减少SC，作者选择干预Bt和αt（分别控制输入强度和内存衰减强度）。
Method 2: State Normalization
在每次更新后对状态进行归一化，以确保状态的范数始终低于阈值。这种方法会将模型转换为非线性RNN，无法以与原始模型相同的方式并行化，预填充速度要慢得多。
Method 3: Sliding Window by State Difference
利用状态ht可以写为加权和的形式，来模拟滑动窗口机制，无需在每一步都从窗口的开头重新处理。此方法适用于所有可以写成加权和的RNN，包括RWKV 5和6、RetNet、GLA等。尽管会使生成的计算和内存成本翻倍，但仍然是一个可以接受的权衡，因为RNN的生成成本比Transformer低很多。

实验结果

研究团队通过实验验证了这些解决方案的有效性。实验数据选择了RedPajama-V2数据集，这是一个从CommonCrawl中提取的30T token的开放数据集，进行了去重以确保数据质量。

实验结果表明，所有提出的方法都成功地抑制了状态崩溃（SC），使模型能够泛化到超过64K个token。其中，状态归一化方法在较短序列上的性能明显低于其他方法，这可能是因为归一化折叠状态会改变heads之间的规范比率，破坏了学习机制。

Mamba作者点赞

这项研究得到了Mamba作者Albert Gu的高度评价。他认为这是一篇非常棒的论文，揭示了状态空间模型（SSM）的状态容量和长上下文能力的重要见解。特别是研究中发现的临界值K与状态大小M呈线性关系，表明每个token可能存在某种固有的信息含量，这一发现具有重要的理论意义。

Albert Gu还指出，过分担心循环模型的长度泛化问题可能是一个误区。实际上，我们不需要设计新机制或特殊的缓解措施，只需要在更长的序列上训练模型，就能获得更好的泛化效果。

结论

这项研究不仅揭示了RNN模型在长上下文建模中面临的具体问题，还提出了有效的解决方案，为未来的研究和应用提供了重要的参考。正如Albert Gu所说，要让你的Mamba吃得饱饱的，它就能发挥出最佳状态！

论文地址：https://arxiv.org/pdf/2410.07145v1

参考资料：

热门推荐

基础理论之电磁基础

基础理论之电磁基础

玩转多屏互动：解锁家庭娱乐新体验的秘籍

玩转多屏互动：解锁家庭娱乐新体验的秘籍

坐月子吹风会关节炎吗

坐月子吹风会关节炎吗

军体小知识丨夏季体能训练有讲究

军体小知识丨夏季体能训练有讲究

吉字甲骨文：吉字的来源、演变及其文化内涵

吉字甲骨文：吉字的来源、演变及其文化内涵

欧元兑人民币汇率变动解析：全球金融市场动态观察

欧元兑人民币汇率变动解析：全球金融市场动态观察

5个提升作文能力贴士：小学中文科主任谈写作过程中的输入元素

5个提升作文能力贴士：小学中文科主任谈写作过程中的输入元素

汽车轮胎的性能与更换时机全攻略

汽车轮胎的性能与更换时机全攻略

推荐8种营养师常吃健康食物，最后一种意想不到

推荐8种营养师常吃健康食物，最后一种意想不到

人事行政管理模式有哪些特点？

人事行政管理模式有哪些特点？

高铁飞机上的水又洗手又冲厕所，真的还能喝吗？

高铁飞机上的水又洗手又冲厕所，真的还能喝吗？

如何让AI绘画看起来更吸引人？

如何让AI绘画看起来更吸引人？

两校合并！平顶山学院东湖校区正式揭牌

两校合并！平顶山学院东湖校区正式揭牌

脑溢血后遗症康复治疗的新进展与突破：第三代神经修复技术的应用

脑溢血后遗症康复治疗的新进展与突破：第三代神经修复技术的应用

爆胎危险极大如何正确应对才能保命！

爆胎危险极大如何正确应对才能保命！

基督教有天使吗？探索天使的角色与信仰意义

基督教有天使吗？探索天使的角色与信仰意义

笔记本一开机风扇就嗡嗡响，声音很大？从这里开始排查

笔记本一开机风扇就嗡嗡响，声音很大？从这里开始排查

如何进行黄金ETF的投资？黄金ETF投资有哪些风险？

如何进行黄金ETF的投资？黄金ETF投资有哪些风险？

慈禧：中国历史上一个具有争议性的女性

慈禧：中国历史上一个具有争议性的女性

第一次世界大战的爆发，欧洲有四大帝国被摧毁，其分别是谁？

第一次世界大战的爆发，欧洲有四大帝国被摧毁，其分别是谁？

崇祯励精图治17年，明朝为何还是走向了灭亡？

崇祯励精图治17年，明朝为何还是走向了灭亡？

如何打造权威形象团队

如何打造权威形象团队

春分时节养生指南：从起居到饮食，全方位调养身体

春分时节养生指南：从起居到饮食，全方位调养身体

Cursor AI免费使用方法

Cursor AI免费使用方法

被猫咬伤后应该如何处理？

被猫咬伤后应该如何处理？

银行定期存款利率的调整频率分析？

银行定期存款利率的调整频率分析？

核黄素的功效与作用

核黄素的功效与作用

AI写的小说，能打败网文大神吗？

AI写的小说，能打败网文大神吗？

花式情侣博主们，正在成为年轻人的甜蜜“代餐”

花式情侣博主们，正在成为年轻人的甜蜜“代餐”

《中国儿童分龄营养指导》核心内容

《中国儿童分龄营养指导》核心内容

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号