AI金融攻防赛:YOLO理论学习及赛题代码进阶(DataWhale组队学习)

发布于:2024-10-16 ⋅ 阅读:(13) ⋅ 点赞:(0)

head

引言

大家好,我是GISer Liu😁,一名热爱AI技术的GIS开发者。本系列文章是我跟随DataWhale 2024年10月学习赛的AI金融攻防赛学习总结文档。本文主要讲解如何在金融场景凭证篡改检测中应用YOLO算法。我们将从模型概述、数据准备、训练流程以及模型评估等多个方面,详细介绍如何搭建一个高效的目标检测模型。希望我的经验能对大家有所帮助!💕💕😊


一、物体检测与YOLO算法介绍

1. 什么是物体检测?

物体检测是计算机视觉中的一个重要任务,它不仅需要识别图像中的对象类别,还要确定对象在图像中的位置,并以边界框的形式标注出来(类别+位置)。物体检测的应用场景包括自动驾驶、视频监控、工业检测、金融凭证核验等领域。

物体检测的一般步骤

  1. 输入:一张图像或视频帧,对其进行缩放。
  2. 特征提取:通过卷积神经网络(CNN)提取视觉特征,为检测提供基础。
  3. 候选区域生成:部分算法会生成可能含有目标的区域(如R-CNN)。
  4. 分类与边界框回归:判断区域内物体的类别并回归出精确的边界框坐标。
  5. 非极大值抑制(NMS):去除重复的边界框,保留最高置信度的框。

流程

2. YOLO算法概述

YOLO(You Only Look Once)是一种高效的实时目标检测算法,将检测任务视为一个单一的回归问题。与传统的滑动窗口方法不同,YOLO在一次网络评估中即可同时预测多个边界框和类别概率。其设计能够兼顾检测速度和精度,非常适合金融凭证篡改检测这种需要实时处理的任务。
流程

YOLO算法并行预测原理

YOLO(You Only Look Once)算法之所以能够同时预测多个边界框和类别概率,主要是因为它将目标检测任务视为一个单一的回归问题。具体来说,YOLO通过以下几个关键步骤实现这一目标:

  1. 单一网络评估:YOLO将整个图像输入到一个卷积神经网络(CNN)中,网络在一次前向传播过程中直接输出所有边界框和类别概率。这与传统的滑动窗口方法不同,滑动窗口方法需要多次评估图像的不同区域,而YOLO只需要一次评估。

  2. 网格划分:YOLO将输入图像划分为一个S×S的网格(例如,7×7)。每个网格单元负责预测在其中心附近的目标。每个网格单元可以预测多个边界框(通常是B个,例如B=2),并且每个边界框都与一个类别概率相关联。

  3. 边界框预测:每个网格单元预测B个边界框,每个边界框由5个参数组成:边界框的中心坐标(x, y)、边界框的宽度和高度(w, h),以及一个置信度(confidence)。置信度表示该边界框包含目标的概率。

  4. 类别概率预测:每个网格单元还预测C个类别概率,表示该网格单元中目标属于每个类别的概率。这些类别概率与边界框无关,而是基于网格单元的内容。

相关公式理论:
1. 置信度(Confidence):

  • 置信度的计算公式为:
    Confidence = Pr(Object) × IOU(pred, truth) \text{Confidence} = \text{Pr(Object)} \times \text{IOU(pred, truth)} Confidence=Pr(Object)×IOU(pred, truth)
    • Pr(Object):表示网格单元中存在目标的概率。如果网格单元中没有目标,Pr(Object)为0;如果有目标,Pr(Object)为1。
    • IOU(pred, truth):表示预测边界框与真实边界框的交并比(Intersection over Union)。IOU的值范围在0到1之间,值越大表示预测框与真实框的重叠程度越高。

2. 类别概率(Class Probability)

  • 类别概率的计算公式为:
    Class Probability = Pr(Class i ∣ Object) \text{Class Probability} = \text{Pr(Class}_i | \text{Object)} Class Probability=Pr(ClassiObject)
    • Pr(Class_i | Object):表示在网格单元中存在目标的情况下,目标属于第i类的概率。
  • 最终预测:
    最终的预测结果是每个边界框的置信度与类别概率的乘积:
    Final Prediction = Confidence × Class Probability \text{Final Prediction} = \text{Confidence} \times \text{Class Probability} Final Prediction=Confidence×Class Probability
  • 举例:
    假设我们有一个7×7的网格,每个网格单元预测2个边界框,并且我们有3个类别(例如,人、车、自行车)。
  • 网格划分:图像被划分为7×7的网格,总共有49个网格单元。
  • 边界框预测:每个网格单元预测2个边界框,每个边界框有5个参数(x, y, w, h, confidence)。假设某个网格单元预测的两个边界框为:
    • 边界框1:(x1, y1, w1, h1, confidence1)
    • 边界框2:(x2, y2, w2, h2, confidence2)
  1. 类别概率预测

每个网格单元还预测3个类别概率(人、车、自行车)。假设某个网格单元的类别概率为:
- 人:0.8
- 车:0.1
- 自行车:0.1

  • 最终预测:对于每个边界框,最终的预测结果是置信度与类别概率的乘积。例如:
    • 边界框1的最终预测:(confidence1 * 0.8, confidence1 * 0.1, confidence1 * 0.1)
    • 边界框2的最终预测:(confidence2 * 0.8, confidence2 * 0.1, confidence2 * 0.1)

由此,YOLO能够在一次前向传播中同时预测多个边界框和类别概率,从而实现快速且高效的目标检测。


二、YOLO版本演进与特性

YOLO算法自2015年推出以来经历了多次迭代,每一代都在速度、准确性和易用性方面进行了改进:

版本 年份 主要贡献与特点
YOLOv1 2015 将检测视为回归问题,单次网络预测物体类别与位置。
YOLOv2 2016 引入批量归一化和高分辨率分类器,支持多达9000个类别的检测。
YOLOv3 2018 使用Darknet-53骨干网络,提高了多尺度检测能力。
YOLOv4 2020 融合CSPNet和PANet等技术,提升特征提取效率。
YOLOv5 2020 用PyTorch实现,更易用,适应不同场景。
YOLOv8 2023 引入Anchor-Free检测头和新损失函数,提升性能与灵活性。
YOLOv10 2024 取消NMS操作,优化组件,实现最高性能。

三、YOLO数据集格式与标注

YOLO算法的标注格式主要使用.txt文件记录图像中的物体信息。每一行代表一个物体的类别及其边界框坐标,格式如下:

class_index x_center y_center width height
  • class_index:类别索引,对应于类别列表中的整数。
  • x_center, y_center:物体中心的x和y坐标,归一化到[0, 1]范围。
  • width, height:物体边界框的宽度和高度,同样归一化处理。

示例配置文件 (YOLO.yaml)

path: ../dataset/  # 数据集根目录
train: images/train/  # 训练集路径
val: images/val/  # 验证集路径

# 类别数量和名称
nc: 2  # 类别数量
names: ["0", "1"]  # 类别名称

本此比赛的baseline中则是这个data.yaml的文件:
file-format

ok,看完Yolo的基本介绍后,我们根据本次比赛的baseLine代码来提出Yolo的训练过程吧!


四、金融检测YOLO模型的训练与评估流程

为了提升模型在金融场景中的应用效果,我们可以采取以下优化措施:

  1. 增加训练数据:整合更多高质量数据集,提升模型的泛化能力。
  2. 使用不同的预训练权重:在已有模型上微调,提升精度。
  3. 模型部署:将训练好的模型部署到云端或本地服务器,实时检测凭证篡改行为。

作者将在下面整理本次比赛代码流程:

1.安装必要的库
pip install ultralytics opencv-python-headless albumentations pandas numpy

2.导入依赖库
import os
import cv2
import shutil
import numpy as np
import pandas as pd
import albumentations as A
from ultralytics import YOLO

print('依赖库导入成功!')

3.定义图像增强和处理函数
# 绘制多边形到二值 mask 上
def polygon_to_mask(polygon, img_height, img_width):
    mask = np.zeros((img_height, img_width), dtype=np.uint8)
    polygon = np.array([polygon], dtype=np.int32)
    cv2.fillPoly(mask, polygon, 1)
    return mask

# 增强图像并生成 mask
def augment_image(img, polygons):
    mask = np.zeros(img.shape[:2], dtype=np.uint8)
    for polygon in polygons:
        polygon_mask = polygon_to_mask(polygon, img.shape[0], img.shape[1])
        mask = np.maximum(mask, polygon_mask)

    transform = A.Compose([
        A.HorizontalFlip(p=0.5),
        A.VerticalFlip(p=0.5),
        A.RandomRotate90(p=0.5),
        A.RandomBrightnessContrast(p=0.2),
    ], is_check_shapes=False)

    augmented = transform(image=img, mask=mask)
    return augmented['image'], augmented['mask']

# 归一化多边形坐标
def normalize_polygon(polygon, img_width, img_height):
    return [(x / img_width, y / img_height) for x, y in polygon]

print('图像增强和归一化函数定义成功!')

4. 处理训练集和验证集
# 加载数据集(假设已有一个包含路径和多边形数据的DataFrame:training_anno)
training_anno = pd.read_csv('annotations.csv')  # 替换为你的注释文件路径

# 处理训练数据集
for _, row in training_anno.iloc[:14000].iterrows():
    shutil.copy(row['Path'], 'yolo_seg_dataset/train/')
    img = cv2.imread(row['Path'])
    img_height, img_width = img.shape[:2]

    # 数据增强
    img, mask = augment_image(img, row['Polygons'])

    # 保存标签文件
    txt_filename = os.path.join('yolo_seg_dataset/train/', row['Path'].split('/')[-1][:-4] + '.txt')
    with open(txt_filename, 'w') as f:
        for polygon in row['Polygons']:
            normalized_polygon = normalize_polygon(polygon, img_width, img_height)
            normalized_coords = ' '.join([f'{coord[0]:.3f} {coord[1]:.3f}' for coord in normalized_polygon])
            f.write(f'0 {normalized_coords}\n')

print('训练集处理完成!')

# 处理验证集
for _, row in training_anno.iloc[14000:17000].iterrows():
    shutil.copy(row['Path'], 'yolo_seg_dataset/valid/')
    img = cv2.imread(row['Path'])
    img_height, img_width = img.shape[:2]

    mask = np.zeros(img.shape[:2], dtype=np.uint8)
    for polygon in row['Polygons']:
        polygon_mask = polygon_to_mask(polygon, img.shape[0], img.shape[1])
        mask = np.maximum(mask, polygon_mask)

    txt_filename = os.path.join('yolo_seg_dataset/valid/', row['Path'].split('/')[-1][:-4] + '.txt')
    with open(txt_filename, 'w') as f:
        for polygon in row['Polygons']:
            normalized_polygon = normalize_polygon(polygon, img_width, img_height)
            normalized_coords = ' '.join([f'{coord[0]:.3f} {coord[1]:.3f}' for coord in normalized_polygon])
            f.write(f'0 {normalized_coords}\n')

print('验证集处理完成!')

5.创建配置文件
# 创建数据集的配置文件 data.yaml
with open('yolo_seg_dataset/data.yaml', 'w') as f:
    data_root = os.path.abspath('yolo_seg_dataset/')
    f.write(f'''
path: {data_root}
train: train
val: valid

names:
  0: alter
''')

print('配置文件创建成功!')

6.训练模型
print('开始模型训练!')

# 加载 YOLOv8 分割模型并进行训练
model = YOLO("yolov8l-seg.pt")  # 使用较大的 YOLOv8-L 分割模型
results = model.train(data="./yolo_seg_dataset/data.yaml", epochs=50, imgsz=640)  # 设置训练轮数为50

print('模型训练完成!')

7.保存和验证结果
# 保存训练结果
results.save("yolo_seg_results/")
# 打印训练结果摘要
print(results)

  1. 安装依赖:安装必要的 Python 包,如 ultralyticsopencvalbumentations 等。
  2. 定义增强函数:通过 Albumentations 进行图像增强,并生成 mask。
  3. 处理数据集:将训练集和验证集中的图像及其标签进行增强和格式化。
  4. 创建配置文件:定义数据集路径和类别名称。
  5. 训练模型:加载 YOLOv8 分割模型,使用增强后的数据集进行训练,并保存结果。

相信看完以上代码后,读者对这个流程有了自己的理解;我们再来了解一下实例分割的概念与原理吧!


五、YOLO实例分割原理

1.实例分割的概念

实例分割
实例分割(Instance Segmentation)是一种计算机视觉任务,它**不仅需要识别图像中的每个物体,还需要精确地分割出每个物体的像素级边界。**与物体检测(Object Detection)不同,物体检测只需要识别出图像中物体的边界框(Bounding Box),而实例分割则需要进一步将每个物体的像素精确地分割出来。

上图中面积区域是实例分割的结果,框选区域是目标识别的结果;

2.实例分割与物体识别的区别

  1. 物体检测(Object Detection)

    • 任务:识别图像中物体的类别和位置。
    • 输出:每个物体的边界框(Bounding Box)和类别标签。
    • 示例:YOLO、Faster R-CNN。
  2. 实例分割(Instance Segmentation)

    • 任务:识别图像中每个物体的类别,并精确地分割出每个物体的像素级边界。
    • 输出:每个物体的像素级掩码(Mask)和类别标签。
    • 示例:Mask R-CNN、YOLOv8。

3.YOLO实例分割

YOLOv8通过扩展其基本的目标检测框架,实现了实例分割功能。以下是YOLOv8实现实例分割的关键步骤和原理:

  1. 多任务损失函数

    • 边界框损失:评估预测框与真实框之间的差异。
    • 分类损失:预测类别与真实类别的误差。
    • 分割损失:预测掩码与真实掩码的差异。
    • DFL损失:用于优化预测框的边缘精度。
  2. 特征提取

    • YOLOv8使用卷积神经网络(CNN)提取图像特征。这些特征图(feats)包含了图像的高级语义信息。
  3. 原型掩码生成

    • 在特征提取之后,YOLOv8生成一组原型掩码(proto)。这些原型掩码是基于特征图生成的,用于表示不同物体的潜在掩码形状。
  4. 预测掩码生成

    • 基于原型掩码和特征图,YOLOv8生成预测掩码(pred_masks)。这些预测掩码是每个物体的像素级掩码。
  5. 掩码组合

    • 最终的实例掩码是通过组合预测掩码和原型掩码生成的。这个过程考虑了不同目标之间的掩码重叠情况,并对重叠区域进行处理。
  6. 损失计算与优化

    • 在训练过程中,YOLOv8使用多任务损失函数来优化模型的参数。通过最小化边界框损失、分类损失、分割损失和DFL损失,模型能够同时学习物体检测和实例分割任务。

示例

假设我们有一张包含多个物体的图像,例如一张包含汽车、行人和自行车的街道图像。
test

  1. 物体检测

    • YOLOv8首先识别出图像中的每个物体,并生成它们的边界框。例如,它会识别出汽车、行人和自行车的边界框。
  2. 实例分割

    • 在物体检测的基础上,YOLOv8进一步生成每个物体的像素级掩码。例如,它会生成汽车、行人和自行车的像素级掩码,精确地分割出每个物体的像素。

代码如下:

import cv2

from ultralytics import YOLO
from ultralytics.utils.plotting import Annotator, colors

model = YOLO("yolo11n-seg.pt")  # segmentation model
names = model.model.names
cap = cv2.VideoCapture("path/to/video/file.mp4")
w, h, fps = (int(cap.get(x)) for x in (cv2.CAP_PROP_FRAME_WIDTH, cv2.CAP_PROP_FRAME_HEIGHT, cv2.CAP_PROP_FPS))

out = cv2.VideoWriter("instance-segmentation.avi", cv2.VideoWriter_fourcc(*"MJPG"), fps, (w, h))

while True:
    ret, im0 = cap.read()
    if not ret:
        print("Video frame is empty or video processing has been successfully completed.")
        break

    results = model.predict(im0)
    annotator = Annotator(im0, line_width=2)

    if results[0].masks is not None:
        clss = results[0].boxes.cls.cpu().tolist()
        masks = results[0].masks.xy
        for mask, cls in zip(masks, clss):
            color = colors(int(cls), True)
            txt_color = annotator.get_txt_color(color)
            annotator.seg_bbox(mask=mask, mask_color=color, label=names[int(cls)], txt_color=txt_color)

    out.write(im0)
    cv2.imshow("instance-segmentation", im0)

    if cv2.waitKey(1) & 0xFF == ord("q"):
        break

out.release()
cap.release()
cv2.destroyAllWindows()

通过这种方式,YOLOv8不仅能够识别图像中的物体,还能够精确地分割出每个物体的像素级边界,从而实现实例分割任务。

OK! 今天就学习到这里了!😉


七、总结

通过本次AI金融攻防赛的学习和实践,我们深入了解了凭证篡改检测这一关键问题,并成功构建了一个基于YOLOv8l的检测模型。通过数据标注、模型训练和评估,我们验证了YOLO在金融凭证检测任务中的高效性和可靠性。OK,初步解析到此结束!更多内容看后续;希望这篇博客能为您的项目提供帮助!🚀


相关链接


thank_watch

如果觉得我的文章对您有帮助,记得三连+关注哦!🌟