ULSD 阅读笔记
ULSD: Unified Line Segment Detection across Pinhole, Fisheye, and Spherical Cameras(ISPRS 2021)
摘要
- 动机:大多数最先进的(SOTA)方法都致力于检测未失真针孔图像中的直线段,因此鱼眼或球面图像的失真可能会大大降低其性能
- 解决方法:使用 Bezier curve model 来表示线段;并使用一个端到端网络进行 Bezier curve 的回归
引言
- 贡献:
- 基于 Bezier curve model 的 model-free 的模型,模型不依赖相机畸变参数
- 端到端线段检测网络,可以直接用在畸变和无畸变的图像上(例如针孔、鱼眼、球形摄像机)
方法
Bezier Curve Representation
- Bezier curve:贝塞尔曲线使用伯恩斯坦多项式来表示参数曲线。定义如下(公式1):
B ( t ) = ∑ i = 0 n b i B i , n ( t ) , 0 ≤ t ≤ 1 B(t)=\sum_{i=0}^nb_iB_{i,n}(t),0\le t\le1 B(t)=i=0∑nbiBi,n(t),0≤t≤1
其中 t t t 为曲线上一点的比例系数, n n n 表示贝塞尔曲线的阶数, b i b_i bi 表示第 i i i 个控制点, B i , n ( t ) = C n i t i ( 1 − t ) n − i B_{i,n}(t) = C^i_nt^i(1 −t)^{n−i} Bi,n(t)=Cniti(1−t)n−i 表示伯恩斯坦基多项式 - 贝塞尔曲线插值公式:由上面的公式得到公式(2)
其中 m m m 是插值点的数量, p i p_i pi 是第 i i i 个插值点。 - 问题:一条 n 阶贝塞尔曲线可以由它的 n+1 个控制点确定。但是,控制点缺乏几何意义,可能位于图像之外。因此,我们的网络试图用预测贝塞尔曲线的等分点的位置来代替,然后用公式2通过最小平方法来计算控制点。如图3所示,第3条贝塞尔曲线可以由4个控制点bi来确定,但是b1,b2的预测是不难的。因此,我们用其n+1个等分点p0,p1,p2,p3来表示贝塞尔曲线
网络架构
backbone:Hourglass Network
LPN neck:Line Proposal Network
- Junction Prediction Module:结点预测作为分类和回归问题来处理。空间大小为 H × W H×W H×W 的输入图像被划分为 W b × H b W_b ×H_b Wb×Hb 个 bin,与特征图的空间大小相同。对于每个bin b,网络预测其内部是否存在一个结点。如果一个结点 p \bold p p 在bin b 里面,它也将预测从 p \bold p p 到 bin 中心 b \bold b b 的偏移矢量.因此,网络输出一个结点置信度图 J J J 和一个结点偏移图 O O O。 J J J 和 O O O 的 gt 可以用下面公式来计算( J J J 和 O O O 分别由两个卷积层构成的解码器头预测)
- Line Prediction Module:对于由n阶贝塞尔曲线表示的任意扭曲的线段,Line Prediction Module 预测线段中心点的位置以及从均分点到中心点的偏移向量。中心点预测与结点预测相同。如果n为偶数,则中心点为n+1个均分点之一,其偏移向量为0,因此只需要预测n个偏移向量。
- Line and Junction Matching Module:为了提高线段 proposal 的质量,采用线段和结点匹配模块。匹配策略类似于 HAWP。当且仅当一个线段 proposal 的两个端点能与两个基于欧氏距离的结点 proposal 相匹配时,才保留线段proposal,该线段proposal被保留,然后线段proposal的两个端点被两个匹配的结点proposal所取代。如果有多个 line proposal 与同一对 junction proposal 匹配,则只保留距离最短的一个。
- Line Sample Module:用来产生训练LoI head所需的正负样本。如果有一个 gt线段,并且通过下面公式计算出的它们之间的距离小于预定的阈值 η η η,则线段proposal分配一个正标签。
- Junction Prediction Module:结点预测作为分类和回归问题来处理。空间大小为 H × W H×W H×W 的输入图像被划分为 W b × H b W_b ×H_b Wb×Hb 个 bin,与特征图的空间大小相同。对于每个bin b,网络预测其内部是否存在一个结点。如果一个结点 p \bold p p 在bin b 里面,它也将预测从 p \bold p p 到 bin 中心 b \bold b b 的偏移矢量.因此,网络输出一个结点置信度图 J J J 和一个结点偏移图 O O O。 J J J 和 O O O 的 gt 可以用下面公式来计算( J J J 和 O O O 分别由两个卷积层构成的解码器头预测)
LoI head:LoI(Line of Interest)头部模块将候选线段列表与特征图 F 一起作为输入,并预测每个候选线段是否为真