王炸升级!Mamba加持UNet,能发高区还不卷
创作时间:
作者:
@小白创作中心
王炸升级!Mamba加持UNet,能发高区还不卷
引用
CSDN
1.
https://m.blog.csdn.net/2401_88556812/article/details/144981900
2024深度学习发论文&模型涨点之——Mamba+UNet
众所周知,CNN 在长距离建模能力方面存在局限性,而 Transformer 随能全局建模但受到其二次计算复杂度的限制。因此,以 Mamba 为代表的状态空间模型(SSMs)已然成为一种有前景的方法。
Mamba是一种状态空间模型(SSM),它是一种用于时间序列分析的统计模型。Mamba模型能够处理长序列数据,并能够捕捉数据中的全局上下文信息。在图像分割的上下文中,Mamba被用来增强网络对图像全局信息的捕捉能力。
UNet是一种深度学习模型,主要用于图像分割任务,特别是在医学图像分析领域。它由Falk et al.在2015年提出。UNet的结构呈U形,包含一个收缩路径(编码器)和一个扩展路径(解码器),两者通过跳跃连接相连。这种结构使得网络能够在不同尺度上捕获图像特征,并在解码器中重新组合这些特征,以实现精确的分割。
论文精选
论文1:LKM-UNet
标题: LKM-UNet: Large Kernel Vision Mamba UNet for Medical Image Segmentation
方法:
- 大核Mamba:利用大Mamba核在局部空间建模方面的优势。
- 层次化和双向Mamba块:设计了一种新型的层次化和双向大核Mamba块,以增强SSMs的表示建模能力。
- 像素级和补丁级SSM:提出了由像素级SSM(PiM)和补丁级SSM(PaM)组成的层次Mamba模块,增强了局部邻域像素级和长距离全局补丁级建模。
创新点:
- 性能提升:LKM-UNet在3D Abdomen CT数据集上的DSC和NSD分别达到了86.82和90.02,相较于其他方法有显著提升。
- 计算效率:通过使用大核Mamba设计,LKM-UNet在保持计算效率的同时实现了大感受野。
- 结构优化:LKM-UNet通过引入PiM和PaM,以及双向Mamba(BiM),在局部和全局特征建模方面均显示出优越性。
论文2:Mamba-SEUNet
标题: Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement
方法:
- 架构整合:将Mamba与U-Net架构整合,用于语音增强任务。
- 双向Mamba:利用双向Mamba建模不同分辨率下语音信号的前后依赖性。
- 多尺度信息:通过跳跃连接捕获多尺度信息。
创新点:
- 性能提升:Mamba-SEUNet在VCTK+DEMAND数据集上达到了3.59的PESQ得分,结合感知对比拉伸技术后,PESQ得分进一步提升到3.73。
- 计算复杂度:在保持低计算复杂度的同时实现了SOTA性能。
- 结构优化:通过增加TS-Mamba块的数量,Mamba-SEUNet在PESQ、STOI和MOS评分上均有所提升。
论文3:LightM-UNet
标题: LightM-UNet: Mamba Assists in Lightweight UNet for Medical Image Segmentation
方法:
- 轻量级UNet框架:提出了一个轻量级的UNet框架LightM-UNet,通过整合曼巴和UNet来解决计算资源限制带来的挑战。
- 残差视觉曼巴层(RVM Layer):利用RVM Layer以纯曼巴方式提取深层语义特征,并模拟长距离空间依赖关系,计算复杂度为线性。
- 多视图交叉监督学习:通过不同网络架构的视角多样性,增强了生成的伪标签的鲁棒性和泛化能力。
创新点:
- 参数和计算成本的显著降低:与著名的nnU-Net相比,LightM-UNet在参数和计算成本上分别减少了116倍和21倍,同时实现了更优的分割性能。
- 残差视觉曼巴层(RVM Layer):提出了RVM Layer,以几乎不引入新参数和计算开销的方式,增强了SSM对视觉图像长距离空间依赖关系的建模能力。
- 性能提升:在LiTs数据集上,与nnU-Net相比,LightM-UNet在Dice系数上提高了0.04,准确率上提高了0.02,同时在Montgomery&Shenzhen数据集上,Dice系数达到了0.9617,准确率为0.9274。
论文4:VM-UNet
标题: VM-UNet: Vision Mamba UNet for Medical Image Segmentation
方法:
- 状态空间模型(SSM):提出了一个基于SSM的U形架构模型VM-UNet,用于医学图像分割。
- 视觉状态空间(VSS)块:引入VSS块作为基础块来捕获广泛的上下文信息。
- 非对称编码器-解码器结构:构建了一个具有较少卷积层的非对称编码器-解码器结构,以节省计算成本。
创新点:
- 纯SSM-based模型的首次探索:首次探索了纯SSM-based模型在医学图像分割中的潜在应用,建立了该领域中的一个新基线。
- 性能竞争力:在ISIC17和ISIC18数据集上,VM-UNet在mIoU、DSC、Acc和Sen等指标上均取得了最佳或接近最佳的成绩,显示出强大的竞争力。
- 计算效率:通过非对称结构设计,VM-UNet在保持性能的同时减少了参数数量和计算负载,具体数据显示,与对称结构相比,参数数量减少了0.1M,计算负载减少了0.24 GFLOPs。
热门推荐
了解CAN总线的前世今生:从汽车到工业的应用演变
油箱黄灯亮起后还能行驶多远?如何判断剩余油量?
牙齿隐隐约约的疼但又不是很疼怎么办?
劳动合同怎么签?一文讲明白,赶紧收藏!
如何理解劳动关系的定义?
静物影子怎么修图的软件
从灵感碎片到完整作品:创作系统的搭建
上海猫类眼科专家:常见猫眼病症有哪些?
Ctrl+Z误删文件怎么办?5种恢复方法+预防措施全攻略
重伤害量刑标准判几年
探索地球奥秘:从奇石收藏中获取的科学知识
电子商务专业入门工作岗位全攻略!
成语“沐猴而冠”:华而不实的讽刺
一种具备高强度防风结构的户外配电柜及其防风方法与流程
电动车如何进行正确的维护和保养?维护电动车有哪些要点?
《水浒传》中的兵器文化与人物塑造的独特魅力
Windows查看显卡温度的3种常用方法
macOS系统任务管理器快捷键使用指南
如何高效查找QQ号码及相关信息?
灰色西装的领带搭配指南
宁稼雨 | 叶嘉莹“中体西用”学术思想对我的启示
如何定义需求的优先级:掌握关键方法,让产品工作更高效
拿什么拯救你,放射性皮炎创面?
财务ERP怎么学
娃娃菜保鲜期有多久(探究娃娃菜的保鲜秘密)
如何打开和运用技术分析指标?这类技术分析指标的使用有哪些技巧?
复旦教授亲授秘籍:从低水平 “综抄” 到高质量文献综述的蜕变之路
三电极电解池的工作原理与应用
人力资源补充协议怎么写
JS INI文件乱码问题解决方案