问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

新一代状态空间模型网络替代Transformer 综述

创作时间:
作者:
@小白创作中心

新一代状态空间模型网络替代Transformer 综述

引用
CSDN
1.
https://blog.csdn.net/liangdaojun/article/details/138281345

状态空间模型(SSM)作为一种新兴的序列建模方法,近年来在自然语言处理、计算机视觉、图数据处理等多个领域展现出其独特的优势。本文将从技术原理出发,详细探讨SSM的发展历程及其在各个领域的具体应用,帮助读者全面了解这一前沿技术的最新进展。

技术原理

状态空间模型(SSM)起源于经典卡尔曼滤波,采用零阶保持器(ZOH)进行离散化。与RNN模型类似,SSM面临着计算不能并行化的困境。为了解决这个问题,Gu等人引入了线性状态空间层(LSSL),结合了循环神经网络(RNN)、时间卷积网络和神经微分方程(NDEs)的优点。

状态空间模型是用一组一阶微分方程(连续时间系统)或差分方程描述动态系统行为的数学模型,用于表示系统内部状态的演化。随后,Gu等人提出了结构化状态空间序列模型(S4),这是一种基于vanilla状态空间模型(SSM)的新的参数化方法。此外,Gu等人引入了一种新的方法来训练状态空间模型,以捕获序列中的远程依赖关系。

自然语言处理(NLP)

在语言建模任务中,GSS(门控状态空间)被引入以处理长序列建模问题。S4++发现了S4架构的两个问题,即非平稳状态(NSS)和依赖偏差(dependency bias),提出了状态记忆回复(SMR)机制。此外,一些研究将状态空间模型与局部注意机制结合,以减少内存消耗。

在临床笔记理解任务中,Yang等人利用Mamba的线性计算复杂性来模拟非常长的临床笔记序列,序列长度可达16k。在翻译任务中,[50]将生成舞蹈编排的问题表述为翻译任务,并提出了MDLT,利用现有数据集学习如何将音频序列翻译成相应的舞蹈姿势。

计算机视觉(CV)

近年来,状态空间模型的线性时间序列建模在自然语言处理领域显示出强大的性能。受这些进展的启发,许多基于SSM的视觉模型被提出,包括分类任务、检测任务、分割任务、医疗任务、恢复任务、生成任务、视频理解、跟踪任务以及其他任务。

在分类任务中,S4nd提出了多维多极图形组件,扩展了多维数据连续信号的建模能力。Vamba利用线性复杂性来捕获全方位的感觉场,引入跨扫描块的空间信息遍历,并将非因果视觉图像转换为有序的patch序列。Vim使用双向状态空间模型压缩视觉表示信息,通过位置嵌入和视觉信息来理解全局上下文。

在分割任务中,提出了一种称为Semi-MambaUNet的半监督医学图像分割方法,该方法将基于视觉MambaUNet架构与传统UNet相结合。此外,VM-UNet是一种基于SSM的医学图像分割模型,它在多个数据集上展示了具有竞争力的分割性能。

在恢复任务中,Guo等人提出了一种新的图像恢复模型MambaIR,旨在探索Mamba在低水平视觉中的潜力。Serpent使用状态空间模型来维持一个具有线性缩放输入大小的全局接受域,这大大降低了计算资源和GPU内存的成本。

在生成任务中,ZigMa引入了一种基于Mamba结构的新的扩散模型,DiffuSSM是一种可扩展的状态空间模型,DiS是一种基于状态空间架构的新型扩散模型。在视频理解方面,ViS4mer利用多尺度时间结构化状态空间序列解码器进行长期推理。

图数据处理

除了标准的网格数据(如图像)外,结构化图数据在人工智能中也得到了广泛的研究。GraphS4mer利用结构化状态空间(S4)架构来捕获长期的时间依赖性。GraphMamba包含一个节点优先级技术,用于对重要节点进行优先级排序。Ali Behrouz等人提出了GRED,这是一种新的图表示学习架构。

多模态处理

状态空间模型也可以适用于多模式/多媒体任务。S4ND将状态空间模型扩展到多维信号,从而能够将大规模视觉数据建模为连续的多维信号。VL-Mamba是探索状态空间模型Mamba以解决多模态学习任务中Transformer架构中昂贵的计算开销的第一个努力。CMViM专注于将多模态表示学习应用于3D高分辨率医学图像。

时间序列处理

TimeMachine通过引入一种方法来解决这些问题,该方法利用Mamba来捕获多变量时间序列数据中的长期依赖关系。timemmachine利用集成的架构与多个Mamba模块,有效地解决了与通道混合和通道独立性相关的挑战。

总结

状态空间模型(SSM)作为一种新兴的序列建模方法,已经在多个领域展现出其独特的优势。从自然语言处理到计算机视觉,从图数据处理到多模态处理,SSM都展现出了强大的性能和广阔的应用前景。随着研究的深入,SSM有望在更多领域取得突破性进展。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号