目录
摘要
本文对YOLOv12进行了架构分析,YOLOv12是单级实时物体检测领域的一项重大进步,它继承了前代产品的优点,同时引入了关键改进。该模型采用了优化的骨干网(R-ELAN)、7×7可分离卷积和FlashAttention驱动的基于区域的注意力,从而改进了特征提取、提高了效率并增强了检测的鲁棒性。YOLOv12具有多种模型变体,与其前代产品类似,可为延迟敏感型和高精度应用提供可扩展的解决方案。实验结果表明,YOLOv12在平均精度(mAP)和推理速度方面都有持续的提高,这使得YOLOv12成为自主系统、安全和实时分析应用中的一个令人信服的选择。通过实现计算效率和性能之间的最佳平衡,YOLOv12树立了实时计算机视觉的新基准,促进了从边缘设备到高性能集群等各种硬件平台的部署。
一、论文信息
论文题目:YOLOV12: A BREAKDOWN OF THE KEY ARCHITECTURAL FEATURES
论文链接:https://arxiv.org/pdf/2502.14740
二、引言
自推出以来,YOLO系列一直处于实时物体检测的前沿。它以通过网络一次预测边界框和类概率来简化检测的能力而著称。YOLO框架由Redmon等人提出,并不断发展,每次迭代都在前代基础上提高速度和准确性,这对于从自动驾驶汽车到监控系统、从农业领域到车辆检测以及从医疗保健到制造业等各种应用都至关重要。YOLOv2和YOLOv3通过多尺度特征提取层和更复杂的训练策略扩展了模型的功能。随后的版本,如YOLOv4到YOLOv6,侧重于改进计算效率和检测精度之间的平衡,采用了马赛克数据增强和CSPNet等技术来优化性能。
后来的迭代版本YOLOv7、YOLOv8和YOLOv9提高了适应性,在各种硬件环境下(从受限的边缘设备到大容量GPU)都能实现稳定的性能。YOLOv10和YOLOv11通过集成最先进的深度学习方法(如注意力机制和变换器启发组件)进一步推进了这些能力,提高了模型在不同场景中辨别复杂视觉模式的能力。尽管取得了这些进步,但在检测小型、部分遮挡或重叠物体方面,尤其是在实时限制条件下,对更高精度的需求仍然是一个持续的挑战。
YOLOv12代表着最新的飞跃,引入了革命性的架构增强功能,有望重新定义实时物体检测。YOLOv12在其前代产品的坚实基础上,通过利用以区域注意力为中心的注意力设计,解决了以前未得到满足的需求,该设计可分割特征图,从而更有效地关注关键区域。这一注意力模块由FlashAttention加速,以减少内存开销,从而能够在高分辨率下进行近乎实时的处理。同时,7×7 可分离卷积取代了传统的位置编码,以更少的参数保留了空间上下文。这些创新共同提高了检测精度,尤其是对较小或严重遮挡物体的检测精度,同时又不影响YOLO系列标志性的实时性能。
开发YOLOv12的动力来自于现实世界视觉任务的日益复杂性,以及在资源受限环境(包括移动和边缘设备)中部署高级深度学习模型的推动。虽然YOLOv11在准确性和适应性方面取得了长足进步,但在严格的硬件限制条件下保持高吞吐量仍然具有挑战性。YOLOv12通过有针对性的优化(如FlashAttention、自适应MLP比率和改进的卷积策略)提高了计算效率,从而解决了这些问题。这些改进减少了内存占用和推理延迟,使YOLOv12成为各种应用的理想选择,包括对快速、准确的目标检测要求极高的自主导航,以及在严格的功率和计算限制条件下运行的机器人或无人机等嵌入式视觉系统。
除了技术创新之外,YOLOv12还延续了YOLO广泛适用性的传统。其增强的特征提取能力可在城市交通和拥挤的公共场所等密集环境中进行更可靠的检测。在汽车领域,它可以通过更精确地检测和跟踪道路使用者,提高高级驾驶辅助系统(ADAS)和自动驾驶汽车的可靠性。在医疗保健领域,YOLOv12更高的精确度可以促进医疗图像的详细分析,检测放射扫描中的异常或分割解剖结构。同时,农业领域也能受益于强大的小目标检测功能,从而监测作物健康状况,及早发现病虫害。
总之,YOLOv12在速度、准确性和资源效率方面都有显著提高,有望为计算机视觉做出重大贡献。本文全面探讨了YOLOv12的架构创新及其对实时物体检测的影响。在介绍之后,我们将追溯YOLO系列的发展里程碑,为理解 YOLOv12的核心设计元素区域注意力、R-ELAN和7×7可分离卷积如何共同提升模型性能并扩大其应用范围奠定基础。
三、YOLO框架的发展
表 1 全面概述了YOLO模型的发展历程,重点介绍了每次迭代中引入的关键创新和改进。这些进步大大增强了物体检测能力,提高了计算效率,并扩展了模型的通用性,使其能够处理各种计算机视觉任务。
这一进步表明了实时检测方法的稳步发展,每个版本都引入了新技术,从YOLO的基础单级检测器到集成了自我注意和基于变压器组件的日益复杂的结构。YOLOv10和YOLOv11采用改进的数据增强和注意力模块,为在具有挑战性的场景中提高准确性和效率奠定了基础。
最新版本YOLOv12在此基础上引入了更多架构改进,进一步提高了特征提取和计算吞吐量。具体来说,YOLOv12采用了以注意力为中心的设计,具有FlashAttention、新颖的残差高效层聚合网络(R-ELAN)和7×7可分离卷积,解决了其前代产品的局限性。在下面的章节中,我们将详细探讨这些进步,并说明YOLOv12如何在物体检测和实例分割等关键计算机视觉任务中提升技术水平。
四、YOLOv12:实时检测的范式转变
YOLOv12标志着实时物体检测领域的开创性进步,通过整合以注意力为中心的机制、精简的架构设计和优化的训练管道,实现了模式的转变。在前代产品奠定的坚实基础上,YOLOv12引入了一系列增强功能,旨在最大限度地提高准确性和计算效率。其核心是重新设计的特征提取策略,利用图 1 所示的剩余高效层聚合网络 (R-ELAN)、FlashAttention和7×7可分离卷积来提供卓越的吞吐量和精度。通过融合这些元素,YOLOv12提升了物体检测和实例分割任务的性能,确保它能熟练处理具有不同细节和遮挡程度的复杂视觉场景。
YOLOv12的一大特点在于它能够适应具有挑战性的检测场景。通过由FlashAttention加速的精炼区域注意力模块,该模型能有效隔离杂乱或动态环境中的关键区域,从而更准确地定位物体,包括那些较小、部分遮挡或重叠的物体。
五、YOLOv12 的架构
YOLO框架的成功历来依赖于一个统一的架构,该架构可执行边界框回归和对象分类,从而实现完全差异化的端到端训练。YOLOv12对这一核心原则进行了扩展,整合了新的架构创新,明确针对更高的精度、更低的延迟和更强的适应性而量身定制。如表 2 所示,YOLOv12的设计可分为三个主要部分:骨干(提取和处理多尺度特征)、颈部(聚合和完善这些特征)和头部(生成最终预测)。
Backbone
YOLOv12的主干系统对于将原始图像数据转换为多尺度特征图至关重要,它为后续的检测任务提供了基础表征。主干网络的核心是残差高效层聚合网络(R-ELAN),它将更深的卷积层与精心设置的残差连接融合在一起。这种设计解决了梯度瓶颈问题,提高了特征重用率,增强了模型捕捉各种尺寸和形状的复杂物体细节的能力。
与早期版本相比,YOLOv12采用了新的卷积块类别,强调轻量级操作和更高的并行性。这些区块利用一系列较小的内核,一般表示为:
其中,Fout是输出特征图,Wi是卷积滤波器,Fin是输入特征图,bi是偏置项。通过将计算分配到多个小卷积而不是较少的大卷积,YOLOv12可以在不影响特征提取质量的情况下实现更快的处理速度。
增强型骨干架构
除了引入先进的卷积块,YOLOv12还利用7×7可分离卷积等技术来减轻计算负担。这种方法有效取代了传统的大内核运算或位置编码,以更少的参数保持了空间感知能力。此外,多尺度特征金字塔可确保不同大小的物体,包括小物体或部分遮挡的物体,都能在网络中得到明显的体现。
Neck
YOLOv12中的 “颈部 ”是骨干和头部之间的通道,用于聚合和细化多尺度特征。其主要创新之一是由FlashAttention加速的区域注意力机制,该机制增强了模型对杂乱场景中关键区域的关注。在数学上,这可以解释为分段注意力操作:
其中Q、K、V分别为查询、关键字和值矩阵,dk为关键字的维度。通过将特征图YOLOv12将特征图分割为多个区域,并应用快速注意力例程,从而减少了内存传输和计算开销,即使在输入分辨率较高的情况下也能实现实时推理。
Head
YOLOv12的头部将颈部的精细特征图转化为最终预测结果,生成边界框坐标和分类分数。主要改进包括简化了多尺度检测路径,以及更好地平衡定位和分类目标的专用损失函数。例如,典型的YOLO风格损失函数可以扩展到新的注意力或置信度项:
其中xˆ、yˆ、Cˆ分别表示预测的边界框坐标和置信度。这些改进进一步提高了YOLOv12在实时应用中的性能。
YOLOv12实现了重大的架构演变,融合了创新的骨干元素、先进的关注机制和完善的预测模块。这些组件共同为物体检测的速度和准确性设定了新标准,同时无缝扩展到实例分割等更专业的任务。
六、YOLOv12支持的核心计算机视觉任务
YOLOv12专为应对各种计算机视觉挑战而设计,其重新设计的架构和优化的算法可在以下方面提供强大的性能:
物体检测:增强的卷积特征提取和关注机制可实现实时精确定位,确保自动驾驶汽车和智能监控等应用中的高精确度。
实例分割:YOLOv12将其精炼的主干网络与专业的分割头相搭配,在像素级别上对物体进行分割,这对于医疗成像和制造缺陷检测等领域至关重要。
如表 3 所示,YOLOv12架构和训练管道的每个方面都经过精心定制,旨在为现代计算机视觉挑战提供高性能、高效率和多功能的解决方案。通过将深层次的架构创新与高效的注意力机制相结合,YOLOv12可以满足实时物体检测的高要求。它将其适用性扩展到越来越多的任务和行业。
七、YOLOv12的进步和主要功能
YOLOv12在2025年早些时候推出的前代产品YOLOv11所奠定的坚实基础上,实现了物体检测领域的重大飞跃。Ultralytics的这一最新迭代产品采用了完善的架构设计、更复杂的特征提取技术和优化的训练管道,以最大限度地提高速度和准确性。YOLOv12的核心改进在于它能够在具有挑战性的场景中检测到微妙的细节,这要归功于残差高效层聚合网络(R-ELAN)、由FlashAttention加速的区域注意力以及7×7可分离卷积等先进模块。通过整合这些创新技术,YOLOv12实现了快速处理、高精度和计算效率的平衡协同,使其在Ultralytics的模型组合中处于领先地位。
YOLOv12的一个关键优势在于其精巧的架构,它针对图像中更广泛的图案和复杂元素。与之前的迭代版本相比,YOLOv12引入了几项显著的改进:
通过优化复杂度提高精确度:与YOLOv11m相比,YOLOv12m变体在 COCO数据集上实现了更高的平均精度(mAP),而使用的参数却减少了25%,这凸显了该模型在不牺牲精度的前提下提高了计算效率。
扩展了CV任务的多功能性:除了稳健的对象检测外,YOLOv12还支持通过重新设计的骨干(R-ELAN)和高级颈部(区域关注)进行实例分割,从而为医疗成像和工业缺陷检测等应用提供更复杂的像素级任务。
优化的速度和性能:通过对卷积块(如7×7可分离卷积)的进一步改进以及精简的颈部和头部设计,YOLOv12实现了延迟与准确性之间的最佳平衡,使其非常适合实时应用场景。
精简参数数和模型大小:参数数量的减少使推理速度更快,内存消耗更低,同时不会明显降低YOLOv12的检测质量。这种效率对于资源有限的硬件上的应用至关重要。
先进的特征提取技术:YOLOv12集成了骨干(R-ELAN)和颈部(区域关注)的最新改进技术,增强了特征提取功能,以应对小物体、部分遮挡物体或重叠物体等挑战。
上下文和环境适应性:通过结合FlashAttention和动态多尺度特征处理YOLOv12可随时适应从边缘设备到大规模云环境的各种部署条件,从而确保在不同计算预算下的稳健性能。
增强的训练方法:YOLOv12的训练管道得益于先进的数据增强技术(如 Mosaic、MixUp)、动态学习率计划和最先进的优化器。这些改进提高了模型在异构数据集上的泛化和稳定性。
在基准分析中,YOLOv12在推理速度和准确性方面始终超越其前辈,包括YOLOv10和YOLOv11。如图 2 所示,YOLOv12变体(12n、12s、12m 和 12x)通过在更低的延迟点实现更高的COCO mAP50-95,形成了一个独特的性能前沿。值得注意的是,YOLOv12x在仅12毫秒的推理时间内就达到了约56%的 mAP50-95,超过了之前所有的YOLO版本。YOLOv12m等较小的变体也表现出了卓越的效率,其推理时间与前几代的较大模型相当,甚至超过了后者,而所需的处理时间却大大减少。
YOLOv12s在低延迟机制(1-5毫秒)方面取得了重大突破,保持了约49% mAP50-95的高精确度。这一性能水平是以前类似速度的模型无法达到的,这对于要求速度和精度兼备的实时应用案例来说是一个里程碑。此外,YOLOv12在不同变体中的可扩展性表明,与早期的YOLO版本相比,它能更有效地利用额外的计算资源。
如表 3 所示,YOLOv12的每个架构特性都经过精心设计,以提高速度、精度和整体效率。通过将先进的注意力机制与改进的训练方法相结合,YOLOv12提供了强大而多用途的性能,巩固了其作为现代计算机视觉应用的卓越选择的地位。
八、Coovally AI模型训练与应用平台
你也想体验YOLOv12模型吗?Coovally平台满足你的要求!
Coovally平台整合了国内外开源社区1000+模型算法和各类公开识别数据集,无论是最新的YOLOv12模型还是Transformer系列视觉模型算法,平台全部包含,均可一键下载助力实验研究与产业应用。

在Coovally平台上,无需配置环境、修改配置文件等繁琐操作,可一键另存为我的模型,上传数据集,即可使用YOLO、Faster RCNN等热门模型进行训练与结果预测,全程高速零代码!而且模型还可分享与下载,满足你的实验研究与产业应用。
九、讨论
YOLOv12标志着物体检测技术的重大进步,它以YOLOv11的优势为基础,同时融入了新的架构和算法改进。其核心改进围绕着提高效率、扩大支持任务的范围以及保持实时响应能力(即使在具有挑战性的条件下)。
可扩展性和效率:YOLOv12引入了多个模型变体(如12n、12s、12m、12x),以适应不同的部署设置。这种分层方法允许用户根据其应用限制优先考虑速度或精度。12n和12s等较小的变体在对延迟敏感的任务中表现出显著的优势,是实时嵌入式系统的理想选择。
架构创新:YOLOv12利用R-ELAN并结合7×7可分离卷积重新设计了主干,大大改进了特征提取和表示。这些更新与颈部FlashAttention加速的基于区域的注意力相结合,在不影响准确性的情况下加快了处理速度。增强的骨干和颈部结构加强了模型捕捉复杂模式的能力,尤其是在杂乱的场景中。
实例分割功能:除对象检测外,YOLOv12还可通过使用共享主干和专用分割头随时适应实例分割。这种双任务灵活性使该模型能够在不产生过多计算开销的情况下,处理医疗成像和制造缺陷检测等领域的像素级对象分离问题。
以注意力为中心的设计:YOLOv11的一个显著飞跃是整合了区域注意力机制,利用FlashAttention减少内存开销,提高对突出区域的关注度。这种细化的注意力功能对于检测较小或部分遮挡的物体至关重要,并有助于YOLOv12在各种实际场景中发挥强大的性能。
性能亮点:比较基准显示,所有YOLOv12变体在mAP和推理速度方面都有一致的提高。在低延迟情况下,较小的模型也能达到以前以类似速度运行的探测器无法达到的准确度水平。同时,更重要的变体还能保持适合复杂应用的高精度水平,这说明该模型具有很强的可扩展性。
对现实世界应用的影响:YOLOv12能够以高帧频执行稳健的检测,这拓宽了它的适用范围,使自动驾驶等使用案例受益匪浅,因为在这些使用案例中,毫秒级的决策至关重要,而实时安全系统则需要跟踪快速移动的目标。它内存占用少,处理效率高,适合部署在边缘设备上,同时在具有挑战性的场景中保持高精度。
总之,YOLOv12延续了YOLO的传统,通过精心平衡的架构改进、注意力增强和参数优化,推动实时目标检测向前发展。其结果是一个灵活而强大的模型套件,能够在不同的资源限制条件下处理各种计算机视觉任务。随着各行各业和研究领域越来越关注智能化、时间关键型应用,YOLOv12已准备好提供实用的高性能解决方案。
结论
YOLOv12是实时物体检测技术发展的一个重要里程碑,它在前代产品取得成功的基础上,在架构和算法上实现了有针对性的突破。通过结合更高效的骨干网(R-ELAN)、由FlashAttention支持的高级注意力模块和7×7可分离卷积,YOLOv12在一系列检测任务中大大提高了速度和准确性。此外,YOLOv12的设计还能轻松适应实例分割,这凸显了该模型的多功能性以及在更广泛的计算机视觉应用中的潜力。
实证结果表明,与早期的YOLO变体相比,YOLOv12始终能实现更高的mAP和更快的推理速度,这使它成为自动驾驶、安全监控和实时分析等时间敏感型应用的理想选择。YOLOv12的适应性和可扩展性允许在资源受限的边缘设备和高性能GPU集群上部署,突出了它在各种运行环境中的通用性。此外,正如各种轻量级CNN和基于注意力的方法所显示的,深度学习的未来在于平衡效率和强大性能,而YOLOv12则强化了这一理念。
总之,YOLOv12在计算效率和先进性能之间取得了最佳平衡,从而推动了实时物体检测技术的发展。新颖的架构改进和训练优化使其成为应对现代计算机视觉挑战的强大解决方案,为研究和工业应用领域的进一步创新铺平了道路。