资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

目标检测中单阶段检测模型与双阶段检测模型详细对比与说明

创作时间:

作者:

@小白创作中心

目标检测中单阶段检测模型与双阶段检测模型详细对比与说明

引用

CSDN

https://m.blog.csdn.net/qq_42589613/article/details/145787529

目标检测是计算机视觉领域的重要任务之一，其目的是在图像或视频中定位并识别出感兴趣的对象。在目标检测领域，单阶段检测模型与双阶段检测模型是最常见的两种方法。本文将详细对比这两种检测模型的工作原理、优缺点，并探讨目标检测领域的最新进展。

什么是双阶段检测器

两阶段检测器，如Faster-R-CNN（基于区域的卷积神经网络），已经成为目标检测中的突出解决方案。这些检测器包括两个关键阶段：区域建议和对象分类。在区域建议阶段，识别使用选择性搜索或区域建议网络（RPN）等算法生成的潜在对象区域。随后，对象分类阶段采用这些区域建议来分类和细化边界框预测。

步骤1：生成区域建议

检测器的第一阶段识别图像中可能包含对象的区域。此过程不是对对象进行分类，而是查找对象可能存在的区域（称为区域建议）。

它是如何工作的：一个轻量级的算法（如Region Proposals，RPN）扫描图像，并建议一些可能存在对象的潜在边界框。

例如：如果你有一个汽车、行人和狗的图像，第一阶段可能会在看起来像对象的区域周围输出边界框，但还没有说明它们是什么。

步骤2：对建议区域进行细化和分类

在第二阶段，检测器关注步骤1中的区域建议。对每个区域进行细化与分类：

细化：调整边界框以更好地适应对象。
分类：识别盒子内的对象（例如，“汽车”、“狗”、“行人”）。

工作原理：CNN处理每个区域建议以预测确切的对象类，并调整边界框以与对象紧密对齐。

示例：对于步骤1中的边界框，第二阶段会：

优化汽车的盒子，使其紧紧地围绕在汽车周围。
把里面的物体归类为“汽车”。

优势

更高的准确性：两阶段检测器更准确，因为它们通过两个步骤来细化检测-首先生成区域建议，然后对其进行分类和细化。这使得他们更好地处理遮挡和复杂的场景。
更好的定位：它们在第二阶段通过细化边界框来精确定位物体，使其成为自动驾驶等任务的理想选择。
对噪声更鲁棒：第一阶段过滤掉嘈杂的建议，使两阶段检测器即使在嘈杂的图像中也能表现良好，比如监控视频。

缺点

更慢：两级检测器通常比一级检测器更慢，因为它们有两个阶段来处理每张图像。这使得两级检测器不太适合速度至关重要的应用。
更复杂：两级检测器也比一级检测器更复杂，因为它们有两个阶段需要训练。这使得两级检测器更难以训练和部署。

两级检测器的示例

R-CNN（基于区域的卷积神经网络）

第一阶段：使用选择性搜索算法生成区域建议（可能的对象位置）。
第二阶段：CNN处理每个区域建议，对对象进行分类并细化边界框。

Fast R-CNN

第一阶段：使用选择性搜索生成区域建议。
第二阶段：它不像R-CNN那样单独处理每个区域，而是从CNN的单个前向传递中提取所有提案的特征。这使得它更快，同时仍然细化和分类的建议。

Faster R-CNN

第一阶段：用区域建议网络（RPN）取代选择性搜索，直接从图像中生成区域建议，使其更有效。
第二阶段：使用另一个CNN层对区域提案进行细化和分类。

Mask R-CNN

Faster R-CNN的扩展：
第一阶段：使用RPN生成区域提案。
第二阶段：优化边界框，对对象进行分类，并添加额外的分支来预测每个对象的分割掩码。

单阶段检测器

单阶段检测器，如YOLO（You Only Look Once）和SSD（Single Shot MultiBox Detector），因其简单性和实时性能而广受欢迎。这些检测器直接预测对象边界框和类概率在一个单一的通过图像，消除了一个单独的区域建议阶段的需要。

步骤1：输入图像

模型的输入是整个图像（例如，对于YOLO为416x416像素）。
与两阶段检测器不同，在此步骤中不生成区域建议。相反，图像作为一个整体进行处理。

步骤2：将图像划分为网格

图像被划分为单元格网格。举例来说：
如果网格为13x13，则总共有169个单元格。
每个单元负责检测中心落在该单元内的对象。

步骤3：使用主干CNN提取特征

卷积神经网络（CNN）被用作从输入图像中提取重要特征的骨干。
常见的主干架构：
YOLO：使用自定义CNN或Darknet。
SSD：使用VGG16、ResNet或MobileNet。
RetinaNet：使用ResNet和特征金字塔网络（FPN）。

工作流程：

CNN将输入图像转换为特征图：
特征图总结了图像中不同空间位置的重要特征（边缘、纹理、形状）。
空间分辨率被降低，例如，从416x416像素到13x13网格单元。

步骤4：预测边界框和类概率

每个网格单元预测：

边界框坐标：

每个网格单元预测一个或多个边界框，定义如下：
x，y：长方体中心相对于网格单元的坐标。
w，h：框的宽度和高度，标准化为图像尺寸。

2.置信度评分

表示边界框包含对象的可能性的分数。
例如，如果置信度为0.95，则意味着模型有95%的置信度认为存在对象。

3.类别概率

该模型预测所有可能的对象类别的概率（例如，狗、车、人）。
举例来说：
对象是狗的概率= 0.85。
物体是猫的概率= 0.10。

步骤5：使用锚框（可选）

锚框是在每个网格单元上具有不同形状和大小的预定义边界框。
该模型预测的不是任意框尺寸，而是：调整（偏移）锚框尺寸以更好地适应对象。

为什么要使用锚框？

真实世界图像中的对象大小和形状各不相同。锚框使模型更容易检测不同比例和纵横比的对象。
举例来说：
长宽比为2：1的锚盒可以更好地检测汽车。
宽高比为1：1的锚框可以更好地检测人。

步骤6：过滤低置信度预测

在对所有网格单元进行预测后，模型会过滤掉置信度得分较低的框。
举例来说：
如果置信度阈值为0.5，则丢弃得分低于0.5的框。

步骤7：非最大抑制（NMS）

多个重叠的框可以预测相同的对象。
非最大抑制（NMS）用于仅保留具有最高置信度分数的框并删除重叠框。
这确保了每个对象只有一个边界框。

示例：

假设两个盒子检测到同一只狗：
方框1：置信度= 0.85，IoU = 0.7。
方框2：置信度= 0.75，IoU = 0.7。
NMS保留Box 1并删除Box 2，因为它具有更高的置信度得分。

第8步：最终输出

在过滤和NMS之后，模型输出：
检测对象的边界框。
类别标签和置信度得分。

示例如下：

检测到的对象：

犬：边界框=（50，60，100，120）置信度= 0.95。
球：边界框=（200，180，50，50）置信度= 0.85。

单级探测器优点

更快：它们在一个步骤中处理图像，使其成为视频监控或自动驾驶汽车等实时应用的理想选择。
更简单：只有一个阶段进行训练，与两阶段检测器相比，它们更容易训练和部署。
对规模变化的鲁棒性：由于它们不依赖于区域建议，因此它们可以更好地处理不同大小的对象，使其能够有效地执行交通场景分析等任务。

单级探测器缺点

较低的准确性：由于一级检测器在单个步骤中处理检测而不进行细化，因此它们通常不如两级检测器准确。这使得它们不太适合需要非常高精度的任务，如医学成像。
对遮挡的鲁棒性较低：单阶段检测器难以检测部分隐藏的对象，因为它们缺乏一个细化阶段来处理遮挡等具有挑战性的场景。这可能会使它们在自动驾驶等应用中的可靠性降低，在这些应用中，物体可能会被部分阻挡。