资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

YOLO已经悄悄来到v12，首个以Attention为核心的YOLO框架问世

创作时间:

作者:

@小白创作中心

YOLO已经悄悄来到v12，首个以Attention为核心的YOLO框架问世

引用

新浪网

https://finance.sina.com.cn/tech/roll/2025-02-22/doc-inemiqvp4432968.shtml

YOLO（You Only Look Once）系列模型在实时目标检测领域一直占据重要地位。近日，来自纽约州立大学布法罗分校和中国科学院大学的研究团队发布了YOLOv12，这是首个以Attention为核心的YOLO框架。该研究通过创新的区域注意力模块（A2）和残差高效层聚合网络（R-ELAN），成功克服了传统Attention机制在速度和效率上的局限性，实现了性能和速度的双重突破。

研究背景

YOLO系列模型的结构创新一直围绕CNN展开，而让Transformer具有统治优势的Attention机制一直不是YOLO系列网络结构改进的重点。这主要的原因是Attention机制的速度无法满足YOLO实时性的要求。本周三放出的YOLOv12着力改变这一现状并取得具有优势的性能。

论文标题： YOLOv12: Attention-Centric Real-Time Object Detectors
论文地址： https://arxiv.org/pdf/2502.12524
代码地址： https://github.com/sunsmarterjie/yolov12

技术创新

造成Attention（注意力机制）不能作为核心模块用于YOLO框架的主要原因在于其本身的低效性，这主要源于两个因素：（1）Attention的计算复杂度呈二次增长；（2）Attention的内存访问操作低效（后者是FlashAttention主要解决的问题）。在相同的计算预算下，基于CNN的架构比基于Attention的架构快约2-3倍，这极大限制了Attention在YOLO系统中的应用，由于YOLO体系高度依赖高推理速度。

区域注意力模块（A2）

首先，作者提出了一种简单而高效的区域注意力模块（Area Attention, A2），该模块在保持大感受野的同时，以最简单直接的方式降低了Attention的计算复杂度，从而提升了计算速度。

不同于局部注意力的显式窗口划分，A2采用最简单的方式将特征图划分为纵向或横向的区域（每个区域大小为），这仅需简单的reshape操作，避免了额外的复杂计算带来的开销，从而提升计算效率。

在实验中，作者将默认分割数设为4，使感受野缩小至原来的。尽管仍保持二次复杂度，但在token数量n不是特别大的情况下（如YOLO：640x640），此优化方案在实际应用中仍足够高效，满足了实时推理的需求。最终，实验表明，A2仅对性能产生轻微影响，但显著提升了计算速度，为YOLO等对速度要求极高的任务提供了一种更优的注意力机制替代方案。

残差高效层聚合网络（R-ELAN）

R-ELAN的主要动机是优化ELAN结构，以提升特征聚合效率并解决其带来的优化不稳定性问题，尤其是在引入注意力机制后，参数量较大的模型（如YOLOv12-L和YOLOv12-X）容易发生梯度阻塞或收敛困难。为此，作者提出了残差高效层聚合网络（R-ELAN）。

与原始ELAN不同，R-ELAN在整个block内引入从输入到输出的残差连接，并结合缩放因子（默认0.01），以稳定训练并优化梯度流动。

此外，作者重新设计了特征聚合方式，使其采用瓶颈结构（如上图所示），通过调整通道维度并简化计算流程，以减少计算成本和显存占用，同时保持高效的特征融合能力。最终，R-ELAN显著提升了模型的优化稳定性和计算效率，使YOLOv12的大规模模型能够更好地收敛，并在保证性能的同时提升推理速度。

架构改进

另外，作者还提出一些优化技术，使注意力机制更适应实时目标检测任务，同时降低计算开销并提升优化稳定性。

首先，作者保留了YOLO主干网络的分层设计，不同于很多基于Attention的架构采用的平铺结构的视觉Transformer。

此外，作者减少了主干网络（Backbone）最后阶段的堆叠的block数量，仅保留单个R-ELAN block，以减少计算量并优化训练收敛性。主干网络的前两阶段继承自YOLOv11，未使用R-ELAN，以保持轻量级设计。

同时，作者对基础注意力机制进行了一系列优化，包括：调整MLP ratio（从4降至1.2或2）以更合理地分配计算资源，用Conv2d+BN替换Linear+LN以充分利用卷积算子的计算效率，移除位置编码并引入7x7可分离卷积（Position Perceiver）以帮助区域注意力感知位置信息。

最终，这些改进提升了模型的优化稳定性和计算效率，使其更适用于YOLO系统，同时保持具有竞争力的性能。

实验结果

YOLOv12在COCO数据集上的表现如下：

N-scale模型： YOLOv12-N比YOLOv6-3.0-N、YOLOv8-N、YOLOv10-N和YOLOv11-N分别提升3.6%、3.3%、2.1%、1.2%，同时计算量和参数规模相近或更少，推理速度达到具有竞争力的1.64 ms/图像。
S-scale模型： YOLOv12-S在21.4G FLOPs和9.3M参数的情况下，实现48.0% mAP，比YOLOv8-S、YOLOv9-S、YOLOv10-S和YOLOv11-S分别提升3.0%、1.2%、1.7%、1.1%，计算量相近或更少，并且在推理速度、计算开销和参数量方面明显优于RT-DETR-R18 / RT-DETRv2-R18。
M-scale模型： YOLOv12-M在67.5G FLOPs和20.2M参数的情况下，实现52.5 mAP，推理速度4.86 ms/图像，在各项指标上均优于Gold-YOLO-M、YOLOv8-M、YOLOv9-M、YOLOv10-M、YOLOv11-M以及RT-DETR-R34 / RT-DETRv2-R34。
L-scale模型： YOLOv12-L相较于YOLOv10-L，减少了31.4G FLOPs的计算量，同时mAP仍优于YOLOv11-L达0.4%，计算量和参数量相近。此外，YOLOv12-L在推理速度、FLOPs（减少34.6%）和参数量（减少37.1%）方面均优于RT-DETR-R50 / RT-DETRv2-R50。
X-scale模型： YOLOv12-X比YOLOv10-X和YOLOv11-X分别提升0.8%和0.6%，计算量和参数量相近，推理速度基本持平。同时，相比RT-DETR-R101 / RT-DETRv2-R101，YOLOv12-X计算量减少23.4%，参数量减少22.2%，且推理速度更快。

可视化分析

参数量 / CPU速度 - 精度的Trade-offs比较： YOLOv12在参数量和CPU推理速度方面上均实现了突破。如上图所示，实验结果显示，YOLOv12在准确率-参数量平衡方面优于现有方法，甚至超越了参数量更少的YOLOv10，证明了其高效性。此外，在CPU（Intel Core i7-10700K @ 3.80GHz）上的推理速度测试中，YOLOv12在不同YOLO版本中展现出最佳的计算效率。
YOLOv12热力图分析： 上图展示了YOLOv12与当前最先进的YOLOv10和YOLOv11的热力图对比。这些热力图来自X-scale模型主干网络的第三阶段，显示了模型激活的区域，从而反映其目标感知能力。结果表明，相较于YOLOv10和YOLOv11，YOLOv12能够生成更清晰的目标轮廓和更精确的前景激活，说明其目标感知能力得到了提升。这一改进主要归因于区域注意力机制（Area Attention），该机制相比卷积网络具有更大的感受野，因此在捕捉全局上下文信息方面更具优势，从而实现了更精准的前景激活。作者认为，这一特性使YOLOv12在检测性能上占据优势。

最后，我们期待YOLO社区能继续提出更强大的检测器，为实时目标检测任务提供更多选择。

本文原文来自机器之心AIxiv专栏