YOLOv1模型架构、损失值、NMS极大值抑制-EW帮帮网

文章目录

前言
一、YOLO系列v1
- 1、核心思想
- 2、流程解析
二、损失函数
三、NMS（非极大值抑制）
总结YOLOv1的优缺点

前言

YOLOv1（You Only Look Once: Unified, Real-Time Object Detection）由Joseph Redmon等人在2016年提出，是YOLO系列的第一代模型，首次将目标检测任务转化为单阶段端到端的回归问题，实现了实时检测的突破性进展。

一、YOLO系列v1

1、核心思想

将一副图像分成SxS个网格（grid cell），如果某个object的中心落在这个网格中，则这个网格就负责预测这个object。
在这里插入图片描述
上图把图片划分成7x7的网格，每个网格只用两个预选框，这些边框大小可以超出当前网格的范围，对于每个边框，v1模型分别预测出5个参数：中心坐标(x, y)、宽度w、高度h以及置信度confidence。置信度反映了模型对边框内包含物体的信心程度以及边框的准确度。（置信度(confidence)=类概率*IoU）

2、流程解析

在这里插入图片描述

网络架构借鉴了GoogleNet。24个卷积层，2个全连接层
（用1×1 reduction layers 紧跟 3×3 convolutional layers 取代Goolenet的 inception modules ）
7×7意味着7×7个grid cell，30表示每个grid cell包含30个信息，其中2个预测框，每个预测框包含5个信息(x y w h c)，分别为中心点位置坐标，宽高以及置信度，剩下20个是针对数据集的20个种类的预测概率(即假设该grid cell负责预测物体，那么它是某个类别的概率)。

在这里插入图片描述

每个grid有30维，这30维中，8维是回归box的坐标，2个B是box的confidence，还有20维是类别。其中坐标的x,y（相对于网格单元格边界的框的中心）用对应网格的归一化到0-1之间，w,h用图像的width和height归一化到0-1之间。

二、损失函数

YOLO-V1算法最后输出的检测结果为7x7x30的形式，其中30个值分别包括两个候选框的位置和有无包含物体的置信度以及网格中包含20个物体类别的概率。那么YOLO的损失就包括三部分：位置误差，confidence误差，分类误差。
损失函数的设计目标就是让坐标(x,y,w,h)，confidence，classification这个三个方面达到很好的平衡。
在这里插入图片描述