全文基于针孔模型和基线水平放置来讨论
影响双目计算深度的因素:
- 1、基线长度:两台相机光心之间距离
- 2、相机焦距(像素): f x f_x fx(或 f y f_y fy)为焦距 f f f和一个缩放比例的乘积。在针孔相机模型中,焦距 f f f 是从针孔(即光心)到成像平面的距离。而 f x f_x fx实际上指的是以像素为单位的“有效焦距”,它将物理世界中的距离转换到了图像坐标系下的像素距离,在讨论相机时,一般是讨论 f x f_x fx(或 f y f_y fy)。
- 3、算法匹配的精确度:计算视差时候的精度
- 4、物体深度:随着物体越远,理论误差会越大
当我们有两个不同位置拍摄的同一物体的图像时,可以通过比较这两个图像中物体的位置差异(即视差)来计算该物体与相机之间的距离。
根据相似三角形原理,可以得到视差与深度关系:
disparity = x − x ′ = B f Z \text{disparity} = x - x' = \frac{Bf}{Z} disparity=x−x′=ZBf
- x 和 x’ 分别表示对应于3D场景点X在两张图片中的位置。
- B 是两个相机之间的距离,即基线长度。
- f 是相机的焦距(像素)。
- Z 是物体到相机平面的距离(深度)。
- disparity 是同一个点在两个不同视角下的图像中的水平位移。一般会把图像在y轴对齐,之后沿着x轴搜索对应的像素。
可参考opencv文档:https://docs.opencv.org/4.x/dd/d53/tutorial_py_depthmap.html
可以得到深度的计算公式为:
Z = B f disparity Z = \frac{Bf}{\text{disparity}} Z=disparityBf
可以看深度和视差成反比,深度焦距(像素)或者基线长度成正比关系,我们测量深度时候,肯定是希望越准确越好,因此焦距和基线长度在硬件上面需要好好选型,而视差是跟算法相关,视差的计算肯定是存在误差,这会导致深度估计肯定也有误差,因此像素匹配越精确越好。
焦距:
先补充一些焦距知识:
我们首先要确认研究的范围,假设研究深度是15m-24m,水平视野FOV是40°。对此,我们肯定会选取水平视野为40°的相机,如果对应镜头是8mm,图像大小是1920*1200,根据
Sensor Size = 2 × f × tan ( FOV 2 ) \text{Sensor Size} = 2 \times f \times \tan(\frac{\text{FOV}}{2}) Sensor Size=2×f×tan(2FOV)
所以,传感器尺寸为
Sensor Size = 2 × 8 × tan ( 40 ∘ / 2 ) ≈ 5.76 mm \text{Sensor Size} = 2 \times 8 \times \tan(40^\circ / 2) \approx 5.76\text{mm} Sensor Size=2×8×tan(40∘/2)≈5.76mm
计算像素焦距:
像素焦距通常指的是将物理焦距转换到像素域的比例因子。可以通过下面的公式估算:
Pixel Focal Length = Focal Length in mm Sensor Size in mm × Image Size in pixels \text{Pixel Focal Length} = \frac{\text{Focal Length in mm}}{\text{Sensor Size in mm}} \times \text{Image Size in pixels} Pixel Focal Length=Sensor Size in mmFocal Length in mm×Image Size in pixels
因此,水平方向像素焦距fx为:
Pixel Focal Length = 8 5.76 × 1920 ≈ 2667 pixels (标定实测结果是 2672 p i x e l ) \text{Pixel Focal Length} = \frac{8}{5.76} \times 1920 \approx 2667\text{ pixels} \\(标定实测结果是2672pixel) Pixel Focal Length=5.768×1920≈2667 pixels(标定实测结果是2672pixel)
平时工作我们会更换镜头,测试哪个焦距效果更好,那么假设保持传感器不变,更换16mm镜头,那么像素焦距和视野怎么变呢?
FOV = 2 × arctan ( Sensor Size 2 × f ) \text{FOV} = 2 \times \arctan\left(\frac{\text{Sensor Size}}{2 \times f}\right) FOV=2×arctan(2×fSensor Size)
所以新视野为:
FOV = 2 × arctan ( 5.76 2 × 16 ) ≈ 20 ∘ \text{FOV} = 2 \times \arctan\left(\frac{\text{5.76}}{2 \times 16}\right) \approx 20^\circ FOV=2×arctan(2×165.76)≈20∘
Pixel Focal Length = 16 5.76 × 1920 ≈ 5333 pixels (标定实测结果是 5419 ) \text{Pixel Focal Length} = \frac{16}{5.76} \times 1920 \approx 5333\text{ pixels} \\(标定实测结果是5419) Pixel Focal Length=5.7616×1920≈5333 pixels(标定实测结果是5419)
对此,我们可以得到结论:
- 视野大小与焦距成反比关系。
- 像素焦距与物理焦距成正比关系。
双目视觉基础
在双目视觉系统中,假设两个相机的焦距为 f f f(单位:像素),基线长度(两相机光心之间的距离)为 B B B(单位:米),某点在左、右图像上的投影坐标分别为 ( x l , y ) (x_l, y) (xl,y) 和 ( x r , y ) (x_r, y) (xr,y),其中 x l x_l xl 和 x r x_r xr 分别是该点在左右图像中的横坐标, y y y 是纵坐标(由于进行了极线校正,所有对应点都在同一水平线上)。则该点的视差 d d d 定义为:
d = x l − x r d = x_l - x_r d=xl−xr
深度计算公式
根据相似三角形原理,在已知焦距 f f f、基线 B B B 以及视差 d d d 的情况下,可以计算出物体到相机的距离 Z Z Z(即深度)如下:
Z = f B d Z = \frac{fB}{d} Z=dfB
这里的 Z Z Z 表示的是物体相对于相机平面的实际距离。
深度误差分析
为了计算深度误差 Δ Z \Delta Z ΔZ,我们需要考虑视差测量误差 Δ d \Delta d Δd 对深度计算的影响。通过微分法对深度公式进行变换,我们可以得到深度误差与视差误差之间的关系:
Z = f B d Z = \frac{fB}{d} Z=dfB
对上式两边同时取微分,得:
d Z = − f B d 2 d d dZ = -\frac{fB}{d^2}dd dZ=−d2fBdd
从而,
Δ Z = ∣ d Z d d ∣ Δ d = f B d 2 Δ d \Delta Z = \left| \frac{dZ}{dd} \right| \Delta d = \frac{fB}{d^2} \Delta d ΔZ= dddZ Δd=d2fBΔd
将 Z = f B d Z = \frac{fB}{d} Z=dfB 代入上述公式中替换掉 f B d 2 \frac{fB}{d^2} d2fB,可得:
Δ Z = Z 2 ⋅ Δ d f B \Delta Z = \frac{Z^2 \cdot \Delta d}{fB} ΔZ=fBZ2⋅Δd
这个公式说明了深度误差与物体到相机的距离平方成正比,与视差误差成正比,而与焦距和基线长度成反比。这表明对于远距离物体,即使是小的视差误差也会导致较大的深度误差;相反,增加焦距或基线长度可以减小深度误差。
根据之前的参数(相机分辨率为1920x1200,焦距为2667像素,基线长度为400mm,工作距离在15m到24m之间),我们可以对视差误差进行评估。
计算过程
给定条件:
- 工作距离 Z Z Z:15m 到 24m
- 焦距 f f f:2667 像素
- 基线长度 B B B:0.4 米
假设视差误差 Δ d \Delta d Δd为1像素(很理想的状态了,实际更大),我们可以计算出不同工作距离下的深度误差 Δ Z \Delta Z ΔZ。
对于15米的工作距离
Δ Z 15 m = ( 15 ) 2 ⋅ 1 2667 ⋅ 0.4 = 225 1066.8 ≈ 0.2109 米 \Delta Z_{15m} = \frac{(15)^2 \cdot 1}{2667 \cdot 0.4} = \frac{225}{1066.8} \approx 0.2109 \text{米} ΔZ15m=2667⋅0.4(15)2⋅1=1066.8225≈0.2109米
对于24米的工作距离
Δ Z 24 m = ( 24 ) 2 ⋅ 1 2667 ⋅ 0.4 = 576 1066.8 ≈ 0.5721 米 \Delta Z_{24m} = \frac{(24)^2 \cdot 1}{2667 \cdot 0.4} = \frac{576}{1066.8} \approx 0.5721 \text{米} ΔZ24m=2667⋅0.4(24)2⋅1=1066.8576≈0.5721米
工作距离 (米) | 误差 ($ \Delta Z $,米) |
---|---|
15 | 15 2 1066.8 ≈ 0.2109 \frac{15^2}{1066.8} \approx 0.2109 1066.8152≈0.2109 |
16 | 16 2 1066.8 ≈ 0.2403 \frac{16^2}{1066.8} \approx 0.2403 1066.8162≈0.2403 |
17 | 17 2 1066.8 ≈ 0.2722 \frac{17^2}{1066.8} \approx 0.2722 1066.8172≈0.2722 |
18 | 18 2 1066.8 ≈ 0.3065 \frac{18^2}{1066.8} \approx 0.3065 1066.8182≈0.3065 |
19 | 19 2 1066.8 ≈ 0.3433 \frac{19^2}{1066.8} \approx 0.3433 1066.8192≈0.3433 |
20 | 20 2 1066.8 ≈ 0.3824 \frac{20^2}{1066.8} \approx 0.3824 1066.8202≈0.3824 |
21 | 21 2 1066.8 ≈ 0.4239 \frac{21^2}{1066.8} \approx 0.4239 1066.8212≈0.4239 |
22 | 22 2 1066.8 ≈ 0.4679 \frac{22^2}{1066.8} \approx 0.4679 1066.8222≈0.4679 |
23 | 23 2 1066.8 ≈ 0.5142 \frac{23^2}{1066.8} \approx 0.5142 1066.8232≈0.5142 |
24 | 24 2 1066.8 ≈ 0.5721 \frac{24^2}{1066.8} \approx 0.5721 1066.8242≈0.5721 |
因此,在1像素的视差误差下,对于15米的工作距离,预计的深度误差大约为0.2109米;而对于24米的工作距离,深度误差大约为0.5721米。这个计算是基于理想的视差估计误差为1像素的情况。实际上,视差估计误差可能会大于1像素,特别是在存在图像噪声、光照变化或纹理缺乏的情况下,这将导致更大的深度误差。
从上面可以看到当距离较远时,对我们的匹配要求的准确度极高,这是很难做到的,因此需要升级硬件,从深度的误差公式,我们可以看到,在匹配算法无法优化的情况下,可以增大焦距和基线的长度,焦距增大n倍,则深度误差少n倍;基线长度长n倍,则深度误差少n倍。
标定的效果也会影响到深度误差:
焦距误差对深度误差的影响
假设焦距存在一个微小的误差 Δ f \Delta f Δf,我们想要知道这个误差如何影响最终计算出来的深度 Z Z Z。为此,我们需要对原始深度公式进行微分,以找到焦距误差 Δ f \Delta f Δf 与深度误差 Δ Z \Delta Z ΔZ 之间的关系。
原公式:
Z = f B d Z = \frac{fB}{d} Z=dfB
首先,将原始深度公式两边同时对 f f f 求导,得到:
∂ Z ∂ f = B d \frac{\partial Z}{\partial f} = \frac{B}{d} ∂f∂Z=dB
这表示深度 Z Z Z 对焦距 f f f 的变化率。因此,对于一个小的焦距误差 Δ f \Delta f Δf,对应的深度误差 Δ Z \Delta Z ΔZ 可以近似为:
Δ Z ≈ ∂ Z ∂ f Δ f = B d Δ f \Delta Z \approx \frac{\partial Z}{\partial f} \Delta f = \frac{B}{d} \Delta f ΔZ≈∂f∂ZΔf=dBΔf
但是,通常更关心的是相对误差,即深度误差相对于实际深度的比例。所以,我们将上面的结果转换成相对形式:
Δ Z Z ≈ Δ f f \frac{\Delta Z}{Z} \approx \frac{\Delta f}{f} ZΔZ≈fΔf
这是因为:
Z = f B d Z = \frac{fB}{d} Z=dfB
所以,
Δ Z Z = B d Δ f f B d = Δ f f \frac{\Delta Z}{Z} = \frac{\frac{B}{d}\Delta f}{\frac{fB}{d}} = \frac{\Delta f}{f} ZΔZ=dfBdBΔf=fΔf
这意味着焦距误差导致的深度误差与其相对于焦距的比例相同。换句话说,如果焦距测量存在1%的误差,则计算出的深度也会有大约1%的误差。如果焦距有1%,此时深度是20m,则深度的误差就有0.2m。这种线性关系表明,在设计和校准双目视觉系统时,精确确定焦距是非常重要的,因为它直接影响到深度估计的准确性。
接下来推导 基线长度误差(即双目相机之间的距离误差)与 深度误差 之间的关系。
基线长度误差对深度误差的影响
原公式:
Z = f B d Z = \frac{fB}{d} Z=dfB
将深度公式视为关于 B B B 的函数:
Z ( B ) = f B d Z(B) = \frac{fB}{d} Z(B)=dfB
对其求微分:
∂ Z ∂ B = f d \frac{\partial Z}{\partial B} = \frac{f}{d} ∂B∂Z=df
所以,当基线长度存在一个小的误差 Δ B \Delta B ΔB 时,对应的深度误差近似为:
Δ Z ≈ ∂ Z ∂ B ⋅ Δ B = f d ⋅ Δ B \Delta Z \approx \frac{\partial Z}{\partial B} \cdot \Delta B = \frac{f}{d} \cdot \Delta B ΔZ≈∂B∂Z⋅ΔB=df⋅ΔB
也可以用相对误差形式表示:
Δ Z Z = Δ B B \frac{\Delta Z}{Z} = \frac{\Delta B}{B} ZΔZ=BΔB
因为:
Δ Z Z = f d Δ B f B d = Δ B B \frac{\Delta Z}{Z} = \frac{\frac{f}{d} \Delta B}{\frac{fB}{d}} = \frac{\Delta B}{B} ZΔZ=dfBdfΔB=BΔB
绝对误差关系:
Δ Z = f d ⋅ Δ B \Delta Z = \frac{f}{d} \cdot \Delta B ΔZ=df⋅ΔB
相对误差关系:
Δ Z Z = Δ B B \frac{\Delta Z}{Z} = \frac{\Delta B}{B} ZΔZ=BΔB
- 深度误差 Δ Z \Delta Z ΔZ 与基线误差 Δ B \Delta B ΔB 成正比。
- 如果你高估了基线长度( Δ B > 0 \Delta B > 0 ΔB>0),那么你也会高估物体的深度( Δ Z > 0 \Delta Z > 0 ΔZ>0)。
- 在相对误差层面,深度误差百分比等于基线误差百分比。例如,如果基线被低估了5%,则深度也会被低估5%。
- 这说明在双目系统中,精确测量基线长度非常关键,尤其是在远距离测量或高精度应用中。
计算(使用之前参数)
- 焦距 f = 2667 f = 2667 f=2667 像素
- 基线 B = 0.4 B = 0.4 B=0.4 米
- 工作距离 Z = 24 Z = 24 Z=24 米
- 视差 d = f B Z = 2667 × 0.4 15 = 72 d = \frac{fB}{Z} = \frac{2667 \times 0.4}{15} = 72 d=ZfB=152667×0.4=72 像素
假设基线误差 Δ B = 1 \Delta B = 1 ΔB=1 mm = 0.001 m:
Δ Z = f d ⋅ Δ B = 2667 72 ⋅ 0.001 = 37 ⋅ 0.001 = 0.037 米 = 3.7 cm \Delta Z = \frac{f}{d} \cdot \Delta B = \frac{2667}{72} \cdot 0.001 = 37 \cdot 0.001 = 0.037 \text{ 米} = 3.7 \text{ cm} ΔZ=df⋅ΔB=722667⋅0.001=37⋅0.001=0.037 米=3.7 cm
所以在这种情况下,1毫米的基线误差会导致约3.7厘米的深度误差。