YOLO v1 输出结构、预测逻辑与局限性详解

发布于：2025-08-14 ⋅ 阅读:(17) ⋅ 点赞:(0)

YOLO v1 输出结构、预测逻辑与局限性详解

在目标检测领域，YOLO（You Only Look Once）系列模型以端到端的实时检测能力而闻名。
本篇文章将详细讲解 YOLO v1 的输出结构、预测框与类别概率的对应关系，以及在多物体场景下的局限性，并结合实例分析它的设计思想与不足。

模型输出结构

YOLO v1 将输入图像划分为 $7\times7$ 网格（Grid Cell），每个网格预测一个 30 维向量，组成 $7\times7\times30$ 的输出张量。

每个网格的预测内容：

两个预测框（Bounding Box）：
- 中心点坐标 $(X, Y)$：相对于该网格左上角归一化到 $0\sim1$
- 宽高 $(W, H)$：相对于整张图像归一化到 $0\sim1$
- 置信度 $C$：综合物体存在概率 $P_{\text{object}}$ 与 IOU，计算公式：
  
  $P_{\text{object}} \times IOU$
一组类别概率（P）：
- 20 维向量（以 VOC 数据集为例）
- 通过 Softmax 输出，表示当前网格内物体属于各类别的概率
- 两个预测框共享同一组类别概率

因此，一个网格的 30 个输出维度分布如下：

$\text{参数} \times 2 \text{框}) + 20 \text{类别概率} = 30$

为什么两个框共享类别概率？

YOLO v1 的设计假设：

每个网格中只会有一个主要物体（物体的中心点落在该网格中）

基于这个假设：

类别概率与具体框位置无关，只由网格负责预测
两个框的区别只在于位置与置信度，类别预测是共享的

最终预测得分计算

对于每个预测框：

$\text{score}_{\text{box}} = C_{\text{box}} \times P(\text{class})$

其中：

$C_{\text{box}}$ 是该框的置信度
$P(\text{class})$ 是该网格预测的某一类别的概率

例子
某网格输出：

Box1: C=0.9
Box2: C=0.6
P: [0.1, 0.05, 0.8, ...]  # 第3类是“狗”

则：

Box1 对“狗”的得分 = $0.9 \times 0.8 = 0.72$
Box2 对“狗”的得分 = $0.6 \times 0.8 = 0.48$

后处理流程

置信度阈值筛选
- 保留得分高于设定阈值（如 0.5）的预测框
非极大值抑制（NMS）
- 针对同类别预测框，保留得分最高的框
- 删除 IOU 高于阈值（如 0.5）的其他框

多物体与多框的两种情况

情况 1：同一网格内有多个物体

YOLO v1 只预测一个类别
如果两个物体的中心点落在同一网格中，模型只能保留一个（通常是面积更大的那个）
另一个物体会被漏检
缺陷：小目标密集场景中容易漏检

情况 2：多个预测框共享一个物体

多个框可能同时检测到同一物体
NMS 会保留得分最高的框，删除冗余框
这种情况是正常且可被算法处理的

示例可视化（建议在文章中配图）

输出结构图
- 展示 $7\times7$ 网格、每个网格两个框 + 共享类别概率
多物体漏检示意图
- 一个网格里有一只猫和一只狗，模型只能输出一个类别
NMS 去重示意图
- 多个框围住同一只猫，NMS 保留得分最高的框

总结

两个预测框共享同一组类别概率是 YOLO v1 的设计特征
该设计减少了输出维度，但限制了同一网格多类别检测能力
对于同一物体的多框预测，通过 NMS 解决
后续版本（YOLOv2/v3/v5）引入 多尺度预测 和 Anchor，缓解了小目标漏检问题