论文: https://arxiv.org/pdf/2308.09616
代码: https://github.com/megvii-research/Far3D
Q: 这篇论文试图解决什么问题?
A: 这篇论文提出了一个名为Far3D的新型3D对象检测框架,旨在解决从环视图像中进行长距离3D对象检测的挑战。尽管现有的基于环视图像的3D对象检测方法在成本低廉和应用广泛方面取得了显著进展,但它们主要集中在近程感知范围,而对远程检测的探索较少。直接将现有方法扩展到长距离检测面临如下挑战:
计算成本高:随着检测范围的扩大,需要处理的数据量和计算量显著增加。
不稳定的收敛性:在长距离检测任务中,模型训练可能难以收敛或收敛到不理想的解。
召回率低:现有方法在3D空间中的查询稀疏,导致与真实对象的匹配数量有限,从而影响检测性能。
2D 是 YOLOX
3D 是 streamPETR
为了克服这些限制,Far3D框架利用高质量的2D对象先验信息生成3D自适应查询,以补充3D全局查询。此外,论文还引入了透视感知聚合模块和范围调制的3D去噪技术来提高特征捕获效率和解决查询误差传播问题,从而在长距离任务中提高检测性能。论文的主要贡献包括:
提出了一个新颖的基于稀疏查询的框架,通过将2D对象先验整合到3D自适应查询中,扩展了3D检测的感知范围。
开发了透视感知聚合,以从不同尺度和视角捕获信息性特征,以及一种范围调制的3D去噪技术,以解决查询误差传播和收敛问题。
在具有挑战性的长距离Argoverse 2数据集上,Far3D超越了现有的基于环视图像的方法,并在性能上超过了几种基于激光雷达的方法。此外,还在nuScenes数据集上验证了其泛化能力。
Q: 论文如何解决这个问题?
A: 论文通过提出Far3D框架解决长距离3D对象检测的问题,具体方法包括以下几个关键技术:
3D自适应查询(Adaptive Query Generation):
利用高质量的2D对象检测结果和深度估计来生成3D自适应查询 ( c w , c h ) (\mathbf{c}_w,\mathbf{c}_h) (cw,ch)。
通过空间变换将2D边界框和对应的深度信息投影到3D空间,形成3D提议。
c 3 d = K i − 1 I i − 1 [ c w ∗ d w h , c h ∗ d w h , d w h , 1 ] T \mathbf{c_{3d}}=K_i^{-1}I_i^{-1}[\mathbf{c_w}*\mathbf{d_{wh}},\mathbf{c_h}*\mathbf{d_{wh}},\mathbf{d_{wh}},1]^T c3d=Ki−1Ii−1[cw∗dwh,ch∗dwh,dwh,1]T将这些3D提议转化为查询,与全局查询相结合,为后续的解码器层提供更丰富的对象先验。
Q p o s = P o s E m b e d ( c 3 d ) Q s e m = S e m E m b e d ( z 2 d , s 2 d ) Q = Q p o s + Q s e m \mathbf{Q}_{pos}=PosEmbed(\mathbf{c}_{3d}) \\ \mathbf{Q}_{sem}=SemEmbed(\mathbf{z}_{2d},\mathbf{s}_{2d}) \\ \mathbf{Q}=\mathbf{Q}_{pos}+\mathbf{Q}_{sem} Qpos=PosEmbed(c3d)Qsem=SemEmbed(z2d,s2d)Q=Qpos+Qsem
透视感知聚合(Perspective-aware Aggregation):
针对不同距离的对象可能需要不同尺度的特征,提出了透视感知聚合模块。(FPN)
通过3D空间可变形注意力机制,学习每个查询的采样偏移量,并动态地与有利的特征进行交互。
P q 2 d = I ⋅ K ⋅ ( P q 3 d + Δ P q 3 d ) \mathbf{P}_q^{2d}=\mathbf{I}\cdot\mathbf{K}\cdot(\mathbf{P}_q^{3d}+\Delta\mathbf{P}_q^{3d}) Pq2d=I⋅K⋅(Pq3d+ΔPq3d)
I \mathbf{I} I 是相机内参
K \mathbf{K} K 是相机外参
( P q 3 d , Δ P q 3 d ) (\mathbf{P}_q^{3d},\Delta\mathbf{P}_q^{3d}) (Pq3d,ΔPq3d) 3D相关点和可学习的3D偏移量
范围调制的3D去噪(Range-modulated 3D Denoising):
针对不同距离的对象具有不同的回归难度,提出了范围调制的3D去噪技术。
通过构建基于真实3D边界框的噪声查询,包括正样本和负样本,来训练模型区分并恢复正确的3D边界框。
P ~ = P G T + α f p ( S G T ) + ( 1 − α ) f n ( P G T ) \tilde{\mathbf{P}}=\mathbf{P}_{GT}+\alpha f_p(\mathbf{S}_{GT})+(1-\alpha)f_n(\mathbf{P}_{GT}) P~=PGT+αfp(SGT)+(1−α)fn(PGT)
α ∈ { 0 , 1 } \alpha\in\{0,1\} α∈{0,1} 是正负样本
P G T \mathbf{P}_{GT} PGT是 3D的(x, y, z)
S G T \mathbf{S}_{GT} SGT是3D box scale (w, l, h)
P ~ \tilde{\mathbf{P}} P~是3D 噪声
负样本的使用
有效的特征交互:
利用FPN(特征金字塔网络)获取多尺度图像特征,并通过解码器层的自注意力和透视感知聚合来有效地捕获多视图和多尺度的特征。
训练策略:采用AdamW优化器进行训练,并使用特定的学习率和权重衰减。
引入了一种特殊的训练技巧,即在训练初期使用真实深度信息生成3D自适应查询,随着网络训练稳定,逐渐使用预测的深度信息。
评估与验证:
在具有挑战性的Argoverse 2数据集上进行评估,证明了Far3D在长距离检测任务上的优越性能。
进一步在nuScenes数据集上验证了Far3D的泛化能力。
通过这些方法,Far3D能够有效地扩展3D对象检测的感知范围,同时保持了检测效率,并在长距离检测任务中取得了显著的性能提升。