YOLOv12的创新区域注意力模块(Area Attention,A2)无疑是目标检测领域的一次重大突破,彻底颠覆了传统YOLO框架对注意力机制的认知。YOLOv12首次将注意力机制深度融合到YOLO框架中,实现了实时性与精度的双重提升。那么今天这篇论文是基于YOLOv8s的网络构建了YO-CSA,该模型利用空间和上下文注意力机制大幅提高了检测性能。
论文题目:YO-CSA-T: A Real-time Badminton Tracking System Utilizing YOLO Based on Contextual and Spatial Attention
论文链接:https://arxiv.org/pdf/2501.06472
目录
一、摘要
人机竞赛中羽毛球回合机器人所需的羽毛球三维轨迹需要实时且高精度的性能。然而,羽毛球的高速飞行速度、多样的视觉效应,以及其与环境元素(如球场线和照明)融合的倾向,为快速准确的二维检测带来了挑战。在本文中,首先提出了YO-CSA检测网络,该网络通过结合上下文和空间注意力机制,优化并重新配置了YOLOv8s模型的主干、颈部和头部,以增强模型在提取和整合全局和局部特征的能力。接下来,将三个主要子任务——检测、预测和补偿——整合到一个实时三维羽毛球轨迹检测系统中。具体来说,系统通过立体视觉将YO-CSA提取的二维坐标序列映射到三维空间,然后基于历史信息预测未来的三维坐标,并将它们重新投影到左视图和右视图以更新二维检测的位置约束。此外,系统包括一个补偿模块,用于填充缺失的中间帧,确保轨迹更加完整。在自己的数据集上进行了广泛的实验,以评估YO-CSA的性能和系统的有效性。实验结果表明,YO-CSA达到了90.43% mAP@0.75的高精度,超过了YOLOv8s和YOLO11s。系统表现出色,在12个测试序列中保持了超过130 fps的速度。
二、引言
在过去的十年中,深度学习迅速发展,并在众多领域找到了广泛的应用,引发了多项引人注目的人机竞赛。然而,在羽毛球比赛领域,现有研究在实现真实的人机竞赛之前仍面临许多挑战,包括实时提取羽毛球的三维轨迹、预测其未来落点、制定和及时优化机械臂动作和击球策略。其中,实时提取羽毛球的三维轨迹,作为人机竞赛的第一步,由于其速度和准确性,直接影响后续策略的有效性。在众多小球运动中,与网球和乒乓球等球形结构不同,羽毛球具有更复杂的圆锥形结构,由软木底和羽毛组成。在高速飞行过程中,羽毛球的图像形状会因观察角度的不同而有显著变化。此外,在回合中,其高速运动可能导致羽毛球与背景元素(如球场线和照明)无缝融合。这使得即使是羽毛球的二维检测也相当具有挑战性。准确且实时地捕捉羽毛球在三维空间中的轨迹,不仅为预测其落点和制定机器人的击球策略提供了宝贵的数据,而且还能进行比赛数据分析。这有助于创建基于三维的自动化比赛分析系统,帮助教练准确评估球员的能力,并为运动员制定更加专注和高效的训练计划。在此背景下,我们旨在提出一个集实时性能和高精度于一体的三维羽毛球追踪系统。考虑到羽毛球体积小且易受误检测的影响,我们提出了基于YO-CSA检测网络的羽毛球追踪系统。我们构建了一个简化的立体视觉系统,将二维轨迹映射到三维空间。此外,我们的追踪算法集成了三个关键模块,即羽毛球检测、预测和补偿,以实现稳健可靠的追踪。为了验证我们系统的有效性,我们将检测模块与主流网络进行了比较。结果表明,YO-CSA检测网络显著优于这些基线模型,尤其是在mAP@0.75指标上。此外,我们对追踪策略进行了比较实验,证明了系统的有效性。
三、相关工作
目标检测
目标检测应用广泛,包括在自动驾驶中识别附近的行人和车辆,以及在监控系统中进行智能目标跟踪。同样,目标检测技术对于羽毛球拉力机器人也至关重要。通过提供羽毛球的坐标,物体检测方法使机器人能够预测羽毛球未来的着陆位置,从而优化其移动和返回策略。
从R-CNN(在VOC12上实现了53.3%的平均精度 (mAP))开始,目标检测在过去十年中取得了快速发展。2016年,YOLO的问世标志着一个重大突破,它建立了单阶段模型范式。这种方法直接在整个图像上检测物体,并能在一次推理中同时预测物体位置和类别概率。最近,CenterNet和EfficientNet等流行的骨干网络以及DETR和Swin Transformer等基于变换器的模型得到了广泛应用。最新的YOLO型号,包括YOLOv8和YOLO11,继续挑战现场性能的极限。
为了应对羽毛球高速运动带来的挑战,我们设计了基于上下文和空间注意力的 YOLO(YO-CSA)。该网络建立在YOLOv8s模型之上,YOLOv8s以其高精度和快速推理速度而著称,能够在这种条件下有效处理羽毛球的检测问题。
自注意力机制
自注意力机制有别于对整个图像进行统一处理的传统卷积操作。自我关注允许网络动态调整对特定区域的关注,使其能够优先处理目标对象,同时减少对背景等不太重要区域的关注。它还有助于捕捉长距离依赖关系,克服卷积感受野的局部性限制。
自注意力机制最初是为自然语言处理任务而开发的,在计算机视觉领域也取得了可喜的成果。ViT首次将Transformer架构应用于图像识别,在ImageNet 上取得了88.55%的准确率,甚至超过了ResNet。展示了Transformer在医学成像中的实际应用,它们有效地利用自我注意捕捉全局特征。此外,基于ViT和全连接条件随机场,优化了点云数据的建模。在目标检测方面,DETR完全省去了区域提议、区域提取和非最大值抑制等步骤,采用纯变换器架构实现了端到端的物体检测。Swin Transformer通过引入局部窗口进行自我关注,进一步解决了 ViT计算效率低下的问题。
虽然自注意力机制可以大大提高网络性能,但基于纯Transformer的模型通常需要大量数据集进行训练,而且其高难度会限制推理速度,这些因素与我们的目标不符。因此,我们将重点放在结合卷积和自我注意机制的优势,以实现对羽毛球的实时检测。
小球运动中的跟踪
羽毛球和乒乓球等小球运动风靡全球,吸引了大量研究人员的关注。无论是作为人机协作的重要数据,还是作为比赛视频分析系统的一部分,提取球的轨迹都至关重要。
CenterNet通过学习中心热图来检测目标。同样,一系列研究也采用了相同的基本方法,利用热图进行精确定位。TTNet是专为高分辨率视频设计的多功能神经网络,集乒乓球检测、事件分类和语义分割于一体。它以连续视频帧为输入,使用纯卷积网络和热图学习,对球进行从粗到细的检测和分割。TrackNetV2受到UNet的启发,引入了热图并使用高斯二维分布来确定球的位置。WASB-SBDT受到HRNet的启发,建立了一个神经网络来预测球坐标的热图。它提出了高分辨率模块 (HRM),以解决传统编码器-解码器架构中常见的语义和空间分辨率损失问题。
另一方面,一些研究侧重于优化现有的检测框架。例如,利用梯度估计理论加强了模型训练,提高了视频中网球的识别准确率。将YOLOv3与卡尔曼滤波相结合,实现了2D高尔夫球跟踪系统。利用基于变换器的二次特征处理建立全局信息,提出了一种目标检测算法,用于识别乒乓球并确定其在球桌上的位置。
目前的研究大多集中于二维视频处理,很少涉及三维空间的轨迹提取。这可能是由于制造支持三维轨迹提取的设备成本较高。此外,视频分析任务与机器人游戏不同,并不需要三维数据。机器人学领域仍在不断发展,目前的研究相对有限。因此,本文重点关注实时、精确的三维羽毛球跟踪系统的开发,旨在为机器人领域做出有意义的贡献。
四、实时检测模块
在本节中,我们将介绍一种新型检测网络,该网络集成了上下文和空间注意机制以及卷积技术,可在高速、小目标检测中平衡速度与精度之间的权衡。
YOLO 简要回顾
自2016年YOLO问世以来,YOLO系列历经年度迭代,始终以其卓越的性能领跑物体检测领域。作为一种端到端架构,YOLO与Faster-RCNN等基于区域提案的模型形成鲜明对比,因为它统一由一个网络来执行检测任务,简化了检测流程。
YOLO架构由骨干、颈部和头部组成,分别负责代表性特征的提取、特征增强以及特定任务的操作,如分类和回归。YOLOv5在COCO上实现了50.5%的 mAP,很快被YOLOv8超越,在同一数据集上实现了53.9%的mAP。
检测网络概述
虽然YOLOv8在实际应用中取得了一定的成果,但在羽毛球比赛等对实时性和精度要求都很高的场景中,仍有改进的空间。
我们提出了YO-CSA架构,如图 1 所示。在上下文变换块(CoT)和空间分组增强(SGE)的基础上,我们引入了带2次卷积的上下文变换块(CoT2f)和空间注意力集成颈部(SANeck),它们加强了网络在骨干和颈部过程中提取和增强特征的能力,尤其是在位置分布方面。此外,我们还优化了检测头,以便更有效地学习空间分布。
具有 2 次卷积的上下文变换器模块
设计一个具有全局代表性提取能力的深度神经网络,同时减轻计算开销和减少信息损失至关重要。CoT2f是在YOLO的骨干网络中实现的,旨在增强提取全局上下文的能力,并减轻代表性信息的衰减。我们的方法的出发点是充分利用上下文自关注机制和瓶颈(Bottleneck)这一公认的高效架构范例,在减少计算需求的同时提高网络的学习能力。
如图 2 所示,CoT2f由两个不同大小的卷积层和一个CoT-Bottleneck组成。起初,大小为W×H×C1的输入X被送入卷积层1,得到W×H×2c的输出,这里2c表示卷积层1的通道数。随后,通过分块操作得到中间乘积 [Y1,Y2]。
CoT-Bottlenec能够对Y1进行更精细的特征提取,从而得到YCoT-Bottleneck,而Y2则直接注入到卷积层。与残差结构类似,YCoT-Bottleneck和Y2被连接起来,然后通过卷积层2进行处理,以促进特征融合。CoT是CoT-BottleNeck的一部分,它将上下文信息挖掘与自我注意机制整合到一个内聚结构中。与传统的自我注意设计不同,它采用3×3卷积核来捕捉上下文信息,而不是依赖独立的1×1核来分解成对键值映射之间的相关性。
空间注意力——综合颈部
在神经网络中,目标对象是由一系列子特征组成的,这意味着准确识别这些子特征可以实现目标对象的精确定位。因此,我们强调子特征感知和提取在YOLO颈部的重要性,特别是在双金字塔结构的特征融合过程中。更准确地说,我们在SANeck的基础上重建了一种新的双金字塔结构,目的是通过自我关注机制增强网络的语义提取能力。
为了尽量减少计算开销,SANeck适当参考了轻量级结构SGE ,并从CapsNet汲取了灵感。受YOLOv8中C2f结构的启发,我们用C2f-SGE重构了颈部,在颈部明确引入了自注意。图3展示了SANeck的细节。首先,上一层的输出被送入卷积层1。然后,卷积输出被分成两个片段,其中一个片段Y1由n个SGE-2f模块压缩,而另一个片段Y2则直接进入连接操作。
用 SGE 解耦头部
根据目标检测范例,后骨提取代表性特征,而下游层则处理分类和边界框回归等任务。因此,应更加关注这些下游层的空间分布。
与传统的检测头不同,解耦头不再共享分类和回归之间的参数。取而代之的是,它利用两个并行分支将这两项任务分离开来,使网络能够独立学习每项任务的空间分布。
如前所述,SGE突出了局部特征和全局特征之间的相似性,有助于网络更有效地学习空间分布。因此,与SGE集成的解耦头性能优于传统版本。
如图 5 所示,经过SGE处理后,单个分支被分成两个并行分支,每个分支包含两个 3x3 卷积,分别执行分类和回归。分类和回归的输出结果分别为[H, W, nc](nc 表示类别数)和[H, W, 64](DFL模块有16个通道,边界框有4个基本参数)。
五、YO-CSA-T 系统设计
我们的整个系统可分解为两个主要部分:立体视觉的硬件基础设施和软件设计。软件设计集成了2D物体检测、先进的3D跟踪方法和补偿模块。
立体视觉硬件基础设施
要获得三维坐标,需要具有三维重建功能的相机。然而,市场上现有的立体相机(如ZED)往往难以达到90 fps以上的帧频,从而影响了高速穿梭机轨迹提取的可靠性。在捕捉发球的明显轨迹时,这一点尤其成问题,因为发球的轨迹是先下降,然后抛物线上升,再下降。
为了解决这个问题,我们采用了两个单目摄像头(型号为A7200CU130,由华瑞科技生产)
图 5:带SGE的解耦头
图 6:立体视觉装置示意图
以构建立体视觉系统。该装置可以创建一个高精度双目系统,能够覆盖整个羽毛球场,同时保持精度。图 6 展示了实施过程中摄像机的位置及其支撑结构。具体来说,立体摄像机被放置在机器人球场的后方,以清晰捕捉来球的轨迹。摄像机之间的基线设定为0.8米,摄像机安装高度约为1.8米,以模拟成年男性的视角。
探测模块
检测网络YO-CSA是检测模块的核心,它明确结合了上下文和空间注意机制,并成功实现了超越YOLOv8和YOLO11的性能。我们的检测网络的具体结构将在第三节中详细介绍。
综合跟踪工作流程
我们的管道不仅能检测当前帧中的羽毛球,还能根据历史信息预测羽毛球的未来轨迹,从而结合合理的约束条件来增强检测范围的可信度。在整个过程中,我们实施了各种约束条件以确保轨迹的一致性,例如兴趣区域(ROI)和阈值设置ε1, ε2, ε3,以评估坐标的可信度。
图 7 显示了我们基于2个图像序列的整个跟踪管道,分别表示为IL=[I(1) , . . , I(n) ], IR=[I(1) , . .[I(1) , ... , I(n) ],分别由左右单目RR序列中的每幅图像都对应一个特定的时间戳,以确保左右相机帧之间的时间一致性。
根据游戏规则,羽毛球的初始位置通常位于中心点。初始位置通常位于帧的中心。因此,我们以I(i)和I(i)为中心,设置了一个640×640的ROI区域。不仅能将检测过程集中在更小的区域,还能减轻检测网络的计算负担。
补偿模块
受TrackNetv3的启发,我们添加了一个补偿模块作为辅助分支。我们使用从检测模块获得的二维轨迹PˆL、PˆR和相应的轨迹掩码作为输入,利用补偿网络进行插值。该网络对检测过程中遗漏或因违反时空限制而丢弃的帧进行补偿。补偿网络是一个基于一维卷积运算的U型网络,利用编码器-解码器架构从二维轨迹中提取并整合浅层空间信息和深层语义特征。
六、Coovally AI模型训练与应用平台
如果你也想要进行模型改进或模型训练,Coovally平台满足你的要求!
Coovally平台整合了国内外开源社区1000+模型算法和各类公开识别数据集,无论是YOLO系列模型还是Transformer系列视觉模型算法,平台全部包含,均可一键下载助力实验研究与产业应用。
而且在该平台上,无需配置环境、修改配置文件等繁琐操作,一键上传数据集,使用模型进行训练与结果预测,全程高速零代码!
具体操作步骤可参考:从YOLOv5到训练实战:易用性和扩展性的加强
平台链接:https://www.coovally.com
如果你想要另外的模型算法和数据集,欢迎后台或评论区留言,我们找到后会第一时间与您分享!
七、实验和结果
数据集
基于定制的3D视觉系统,我们收集了来自10个不同场地或环境的羽毛球反弹数据,包括各种角度和自然光条件,共计32,539张图像。我们从原始图像中随机抽取了640×640像素的区域,条件是毽子必须出现在裁剪区域内。具体来说,毽子不一定位于裁剪区域的中心,而是随机分布在640×640区域内。图8a展示了我们的数据集子集。
在实际训练过程中,为了增强网络的泛化和鲁棒性,我们还应用了数据增强技术,包括调整HSV色调、饱和度和值,以及旋转、平移、缩放和翻转等几何变换。
数据集的训练集标签描述如图8b所示。从图中可以看出,数据集中的毽子形状主要呈现为近似正方形的长方形,这与毽子的标准尺寸一致,即高度为68-78毫米,直径为58-68毫米。
检测实验
除了增强数据增强技术外,我们还保留了YOLOv8的原始参数,并在自定义数据集上对模型进行了300次历时训练。
我们的检测网络在我们的数据集上实现了74.00% 的 mAP@0.5:0.95,而 YOLOv5s实现了65.59%,YOLOv8s实现了71.50%。表 I 列出了YO-CSA 算法与其他主流检测模型的检测结果。
图 9 显示了YO-CSA在我们的数据集上的可视化结果,显示了很高的准确率。
方框的准确性直接影响轨迹预测的精度。因此,除了关注精度外,我们还特别重视mAP指标。考虑到mAP@0.5并不能完全体现改进效果,我们还强调了mAP@0.75。我们的检测网络实现了90.43%的mAP@0.75,比YOLOv8s高出7.76%,比 YOLO11s高出3.49%。
为了验证优化的有效性,我们进行了一系列消融实验,结果见表 II。数据表明,改进后的YO- CSA在降低网络GFLOPs的同时实现了最佳性能。
跟踪实验
为了评估我们方法的有效性,我们使用定制的视觉系统收集了12个发球和击球动作的视频片段,每个片段的捕获速度为160fps。虽然YO-CSA的设计已经包含了轻量级结构,但我们的目标是进一步优化检测速度,以满足高水平比赛的需求。因此,我们使用ONNX对模型进行了加速。表 III 显示了加速后YO-CSA的检测性能。在保持73.94% mAP检测准确率的情况下,我们将检测速度提高到了每帧5.82ms,速度提高了12.74%。
在整个跟踪过程中,除了定义ROI以减轻检测模块的负担外,我们还进一步在三维视觉空间中对二维检测施加了限制。
表 IV 比较了四种策略的性能:(a)直接在二维图像序列上进行物体检测,获得成对的左右视图坐标序列,然后进行三维视觉匹配;(b)在左右视图上限制固定的640x640 ROI区域;(c)在(b)的基础上,利用历史轨迹信息预测三维空间中的下一个3D位置,并将其投射到左右视图上更新 ROI;(d)在(c)的基础上,采用补偿模块优化轨迹。
由于获取三维轨迹的地面实况成本很高,我们通过计算基于速度和加速度的轨迹平滑度来评估4种策略。
我们假定,较小的平滑度和中心点偏移表明轨迹更接近现实。如表 IV 所示,策略D的效果最好。图 10 展示了四种策略的结果。
结论
我们构建了基于YOLOv8s的网络YO-CSA,利用空间和上下文注意机制大幅提高了检测性能。此外,我们还引入了多维时空约束策略,并设计了一个基于YO-CSA的实时系统,用于精确提取羽毛球的三维轨迹。实验结果表明,我们的系统可以高精度、实时地提取羽毛球的运动轨迹。在现有基础上,我们打算在今后的工作中进一步研究人机竞赛的实际应用。