问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

YOLO已经悄悄来到v12,首个以Attention为核心的YOLO框架问世

创作时间:
作者:
@小白创作中心

YOLO已经悄悄来到v12,首个以Attention为核心的YOLO框架问世

引用
新浪网
1.
https://finance.sina.com.cn/tech/roll/2025-02-22/doc-inemiqvp4432968.shtml

YOLO(You Only Look Once)系列模型在实时目标检测领域一直占据重要地位。近日,来自纽约州立大学布法罗分校和中国科学院大学的研究团队发布了YOLOv12,这是首个以Attention为核心的YOLO框架。该研究通过创新的区域注意力模块(A2)和残差高效层聚合网络(R-ELAN),成功克服了传统Attention机制在速度和效率上的局限性,实现了性能和速度的双重突破。

研究背景

YOLO系列模型的结构创新一直围绕CNN展开,而让Transformer具有统治优势的Attention机制一直不是YOLO系列网络结构改进的重点。这主要的原因是Attention机制的速度无法满足YOLO实时性的要求。本周三放出的YOLOv12着力改变这一现状并取得具有优势的性能。

技术创新

造成Attention(注意力机制)不能作为核心模块用于YOLO框架的主要原因在于其本身的低效性,这主要源于两个因素:(1)Attention的计算复杂度呈二次增长;(2)Attention的内存访问操作低效(后者是FlashAttention主要解决的问题)。在相同的计算预算下,基于CNN的架构比基于Attention的架构快约2-3倍,这极大限制了Attention在YOLO系统中的应用,由于YOLO体系高度依赖高推理速度。

区域注意力模块(A2)

首先,作者提出了一种简单而高效的区域注意力模块(Area Attention, A2),该模块在保持大感受野的同时,以最简单直接的方式降低了Attention的计算复杂度,从而提升了计算速度。

不同于局部注意力的显式窗口划分,A2采用最简单的方式将特征图划分为纵向或横向的区域(每个区域大小为),这仅需简单的reshape操作,避免了额外的复杂计算带来的开销,从而提升计算效率。

在实验中,作者将默认分割数设为4,使感受野缩小至原来的。尽管仍保持二次复杂度,但在token数量n不是特别大的情况下(如YOLO:640x640),此优化方案在实际应用中仍足够高效,满足了实时推理的需求。最终,实验表明,A2仅对性能产生轻微影响,但显著提升了计算速度,为YOLO等对速度要求极高的任务提供了一种更优的注意力机制替代方案。

残差高效层聚合网络(R-ELAN)

R-ELAN的主要动机是优化ELAN结构,以提升特征聚合效率并解决其带来的优化不稳定性问题,尤其是在引入注意力机制后,参数量较大的模型(如YOLOv12-L和YOLOv12-X)容易发生梯度阻塞或收敛困难。为此,作者提出了残差高效层聚合网络(R-ELAN)。

与原始ELAN不同,R-ELAN在整个block内引入从输入到输出的残差连接,并结合缩放因子(默认0.01),以稳定训练并优化梯度流动。

此外,作者重新设计了特征聚合方式,使其采用瓶颈结构(如上图所示),通过调整通道维度并简化计算流程,以减少计算成本和显存占用,同时保持高效的特征融合能力。最终,R-ELAN显著提升了模型的优化稳定性和计算效率,使YOLOv12的大规模模型能够更好地收敛,并在保证性能的同时提升推理速度。

架构改进

另外,作者还提出一些优化技术,使注意力机制更适应实时目标检测任务,同时降低计算开销并提升优化稳定性。

首先,作者保留了YOLO主干网络的分层设计,不同于很多基于Attention的架构采用的平铺结构的视觉Transformer。

此外,作者减少了主干网络(Backbone)最后阶段的堆叠的block数量,仅保留单个R-ELAN block,以减少计算量并优化训练收敛性。主干网络的前两阶段继承自YOLOv11,未使用R-ELAN,以保持轻量级设计。

同时,作者对基础注意力机制进行了一系列优化,包括:调整MLP ratio(从4降至1.2或2)以更合理地分配计算资源,用Conv2d+BN替换Linear+LN以充分利用卷积算子的计算效率,移除位置编码并引入7x7可分离卷积(Position Perceiver)以帮助区域注意力感知位置信息。

最终,这些改进提升了模型的优化稳定性和计算效率,使其更适用于YOLO系统,同时保持具有竞争力的性能。

实验结果

YOLOv12在COCO数据集上的表现如下:

  • N-scale模型: YOLOv12-N比YOLOv6-3.0-N、YOLOv8-N、YOLOv10-N和YOLOv11-N分别提升3.6%、3.3%、2.1%、1.2%,同时计算量和参数规模相近或更少,推理速度达到具有竞争力的1.64 ms/图像。

  • S-scale模型: YOLOv12-S在21.4G FLOPs和9.3M参数的情况下,实现48.0% mAP,比YOLOv8-S、YOLOv9-S、YOLOv10-S和YOLOv11-S分别提升3.0%、1.2%、1.7%、1.1%,计算量相近或更少,并且在推理速度、计算开销和参数量方面明显优于RT-DETR-R18 / RT-DETRv2-R18。

  • M-scale模型: YOLOv12-M在67.5G FLOPs和20.2M参数的情况下,实现52.5 mAP,推理速度4.86 ms/图像,在各项指标上均优于Gold-YOLO-M、YOLOv8-M、YOLOv9-M、YOLOv10-M、YOLOv11-M以及RT-DETR-R34 / RT-DETRv2-R34。

  • L-scale模型: YOLOv12-L相较于YOLOv10-L,减少了31.4G FLOPs的计算量,同时mAP仍优于YOLOv11-L达0.4%,计算量和参数量相近。此外,YOLOv12-L在推理速度、FLOPs(减少34.6%)和参数量(减少37.1%)方面均优于RT-DETR-R50 / RT-DETRv2-R50。

  • X-scale模型: YOLOv12-X比YOLOv10-X和YOLOv11-X分别提升0.8%和0.6%,计算量和参数量相近,推理速度基本持平。同时,相比RT-DETR-R101 / RT-DETRv2-R101,YOLOv12-X计算量减少23.4%,参数量减少22.2%,且推理速度更快。

可视化分析

  • 参数量 / CPU速度 - 精度的Trade-offs比较: YOLOv12在参数量和CPU推理速度方面上均实现了突破。如上图所示,实验结果显示,YOLOv12在准确率-参数量平衡方面优于现有方法,甚至超越了参数量更少的YOLOv10,证明了其高效性。此外,在CPU(Intel Core i7-10700K @ 3.80GHz)上的推理速度测试中,YOLOv12在不同YOLO版本中展现出最佳的计算效率。

  • YOLOv12热力图分析: 上图展示了YOLOv12与当前最先进的YOLOv10和YOLOv11的热力图对比。这些热力图来自X-scale模型主干网络的第三阶段,显示了模型激活的区域,从而反映其目标感知能力。结果表明,相较于YOLOv10和YOLOv11,YOLOv12能够生成更清晰的目标轮廓和更精确的前景激活,说明其目标感知能力得到了提升。这一改进主要归因于区域注意力机制(Area Attention),该机制相比卷积网络具有更大的感受野,因此在捕捉全局上下文信息方面更具优势,从而实现了更精准的前景激活。作者认为,这一特性使YOLOv12在检测性能上占据优势。

最后,我们期待YOLO社区能继续提出更强大的检测器,为实时目标检测任务提供更多选择。

本文原文来自机器之心AIxiv专栏

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号