【小白深度学习系列】目标检测与分割的基础核心概念

发布于:2025-07-17 ⋅ 阅读:(19) ⋅ 点赞:(0)

一、图像识别分类

图像识别常见的类型有目标检测、实例分割、语义分割、全景分割等,那么他们之间有何区别和联系呢?

名称 英文名 说明
目标检测 Object Detection 检出图中“有什么”+“在哪里”
实例分割 Instance Segmentation 检出“每一个实例”的像素级轮廓
语义分割 Semantic Segmentation 给“每一个像素”贴上类别标签
全景分割 Panoptic Segmentation 语义分割 + 实例分割,兼顾“谁”和“哪类”

        目标检测、实例分割、语义分割、全景分割的输入通常都是一张图像:可以是彩色图像或灰度图像,输入图像可以是来自摄像头、扫描仪或任何图像采集设备。

1、目标检测(Object Detection)

        旨在识别图像中的物体,并确定每个物体的位置和类别。目标检测算法通常会为每个检测到的物体生成一个边界框(bounding box),并标注其类别和概率。

        输出:边界框坐标(x, y, width, height)或(x1, y1, x2, y2)、类别名称和类别概率

2、实例分割(Instance Segmentation)

        是目标检测的扩展,它不仅识别和定位图像中的每个物体,还区分同一类别中的不同实例。

        输出:每个物体的精确轮廓(通常是一个像素级的掩码)和类别标签。

3、语义分割(Semantic Segmentation)

        关注于识别图像中每个像素所属的物体类别,不区分同一类别的不同实例。为每个像素分配类别标签。

        输出:一个像素级的标签图,其中每个像素都被标记为某个类别。

4、全景分割(Panoptic Segmentation)

        结合了语义分割和实例分割的图像分割任务,旨在为图像中的每个像素分配一个语义标签和一个实例ID,以区分不同的物体和背景。全景分割的特点是要对所有目标都检测出来,并且区分出同个类别中的不同个体。它要求图像中的每个像素点都必须被分配给一个语义标签和一个实例id。

        输出则包括每个像素的语义类别和实例ID。

二、图像识别中的关键术语

1、边界框 / 检测框(Bounding Box)

        即矩形框,一般用框对角两个点的坐标(x1,y1,x2,y2)定义目标位置。是检测任务中最基本的定位方式。

2、分割掩码 / 掩膜(Mask)

        在图像处理中,掩膜通常是一个 二值图像,其中的 像素值为 0 或 1。与原始图像具有相同的尺寸,但 仅在目标区域的位置上有非零值。

3、交并比(IoU, Intersection over Union)

        预测框与真实框交集面积 ÷ 并集面积。用于评估预测框是否准确

4、非极大值抑制(NMS)

        在目标检测中,通常会有多个边界框与同一个物体的实际位置重叠。这些边界框可能有不同的大小、位置或置信度分数。如果没有NMS,就会在同一个物体上得到多个检测结果,导致冗余。

        多个框重叠时,仅保留得分最高的那个,去掉其余。去冗余框,提高检测效率。

工作流程:

5、置信度评分(Confidence Score)

        指的是模型预测某个类别的概率。代表模型对检测目标的“可信程度”,一般范围 0 ~ 1。对于逻辑回归或神经网络的输出层使用softmax函数的情况,置信度评分可以直接从softmax函数的输出中获得,即每个类别的预测概率。

        用于与NMS结合,去掉低分冗余框。

6、锚框 / 先验框(Anchor Box / Prior Box)

        在图像不同位置和尺寸预设的多个候选框。锚框是一组预定义的矩形框,它们在训练过程中用作参考点来预测物体的位置和大小。这些框具有不同的长宽比(aspect ratios)和尺寸,以适应图像中可能出现的各种形状和大小的物体

        作用:与真实目标对比后回归偏差,用于提速。

7、多尺度特征(Multi-scale Feature)

        图像在不同分辨率层级提取特征,兼顾大物体与小目标。在多个尺度上提取的特征,这些特征可以来自原始图像的不同分辨率,或者来自卷积神经网络(CNN)中不同层次的特征图主干网络(Backbone)

8、特征金字塔(Feature Pyramid)

        通过上采样(如转置卷积或上采样操作)将高层特征图的分辨率增加,使之与低层特征图的分辨率匹配,后将这些特征图与对应的低层特征图进行融合(通常是通过逐元素相加)。构建自上而下的特征层级结构,让高层语义信息与底层细节融合

类型:


三、检测模型全景图

模型 类型 简述
R-CNN 两阶段 用候选框 + CNN分类,速度慢
Fast R-CNN 两阶段 共享特征图
Faster R-CNN 两阶段 引入RPN区域建议网络
Mask R-CNN 分割+检测 加一条mask分支
YOLO (v1~v11) 单阶段 实时检测系列
SSD 单阶段 多尺度Anchor检测
RetinaNet 单阶段 引入Focal Loss解决样本不均衡
FCOS Anchor-Free 不用锚框,更简洁
CenterNet Anchor-Free 以中心点回归框
DETR Transformer 端到端建模,无需NMS
Sparse R-CNN 稀疏查询 查询式检测器
DINO 系列 高性能DETR 提高收敛与精度
RT-DETR 轻量级DETR 实时版本,更快!

四、分割模型全景图

模型 特点
FCN 首个端到端分割网络
U-Net 编解码结构,医学图像经典
DeepLab系列 空洞卷积+ASPP
PSPNet 金字塔池化
HRNet 保持高分辨率
Swin-UNet 加入视觉Transformer
SegFormer 简洁高效的分割Transformer
SAM 大模型,可分任何目标
Mask2Former 掩码+多任务分割
Panoptic FPN 分割+检测融合的全景方案

网站公告

今日签到

点亮在社区的每一天
去签到