多目立体视觉(Multiple View Stereo,MVS)
概念
定义:可以用来从照片中提取几何图形的线索有: 纹理、散焦、阴影、轮廓和立体匹配。多目立体视觉(MVS)是一组以立体匹配为主要线索并使用两张以上图像的技术的总称。与SLAM/SFM的区别:前者是摄像头运动,后者是多个摄像头视角。
MVS三维重建的目标:给定一组物体或场景的照片,在已知材料、视点和照明条件的假设下,估计最可能解释这些照片的3D形状。(该定义强调了任务的难度,即假设材料、视点和照明是已知的。如果这些都不知道,问题通常是不适定的,因为多种组合的几何,材料,视点,和照明可以产生完全相同的照片。)
方法
MVS主要的步骤:不同的实际应用可能会有不同的方法,但是它们总体的步骤都是相同的。
1. 收集图像
2. 计算各个视角图像的相机参数
3. 从一组图像和相应的相机参数中重建场景的三维几何
4. 重建场景的材料(可选)
场景表示可以是:体素、多边形网格、深度图和水平度集(level sets);
Structure-from-Motion (SfM)
MVS算法要求每个输入图像都有一个对应的相机模型,该模型完整地描述了如何将世界中的3D点投影到特定图像中的2D像素位置,具体的相机模型可参照相机参数一文。在没有给定各个视角相机参数时我们通常需要采用一些算法去估计,SfM是常用的估计算法。
定义:SfM算法以一组图像作为输入,输出两个东西:每幅图像的相机参数,以及图像中可见的一组3D点,这些点通常被编码为轨迹。轨迹定义为一个重建的三维点的三维坐标,以及输入图像子集中相应的二维坐标列表。
基本步骤:
1.特征提取(SIFT, SURF, FAST等一堆方法):从每个输入的图像中检测2D特征;
2.配准(主流是RANSAC和它的改进版):匹配图像之间的2D特征。
3.根据匹配构造2D轨迹。
4.从2D轨迹求解SfM模型。
5.使用光束平差法优化SfM模型,得出相机参数。
光束平差法(bundle adjustment):光束平差法不是SfM必须的一部分,但是为了提高重建精度,它是常用的一步来修正SfM模型。给定给定相机参数集合 { P i } \{P_i\} {Pi},以及轨迹集 { M j , { m i j } } \{M^j,\{m^j_i\}\} {Mj,{mij}},其中 M j M^j Mj是轨迹的3D坐标, m i j m^j_i mij是第i个相机的图像投影坐标。光束平差法最小化下列误差:
E ( P , M ) = ∑ j ∑ i ∣ P i ( M j ) − m i j ∣ 2 E(P,M)=\sum_{j}\sum_{i}|P_i(M^j)-m_i^j|^2 E(P,M)=j∑i∑∣Pi(Mj)−mij∣2
Photo-consistency measures
在MVS的情况下,摄像机参数是已知的,解决场景的3D几何完全等价于解决整个输入图像的对应问题。给定一幅图像中的一个像素,在其他图像中找到相应的像素需要两要素::1.在其他图像中生成可能的候选像素的有效方法。2.一种衡量标准,用来判断给定的候选人匹配正确的可能性有多大。至于判断候选匹配可能性的方法,有大量的文献是关于如何建立所谓的光一致性方法,估计两个像素(或一组像素)对应的可能性。
定义:给定N张图像以及一个在所有图像中可见的点p,定义图像对 ( I i , I j ) (I_i,I_j) (Ii,Ij)的光度一致性为:
C i j ( p ) = ρ ( I i ( Ω ( π ( p ) ) ) , I j ( Ω ( π j ( p ) ) ) ) C_{ij}(p)=\rho(I_i(\Omega(\pi(p))),I_j(\Omega(\pi_j(p)))) Cij(p)=ρ(Ii(Ω(π(p))),Ij(Ω(πj(p))))
其中 ρ ( . ) \rho(.) ρ(.)是两个向量的相似度测量, π i ( p ) \pi_i(p) πi(p)是点p向第i个图像的投影, Ω ( x ) \Omega(x) Ω(x)是围绕点x的一个支持域, I i ( x ) I_i(x) Ii(x)表示在这个支持域内采样的图像强度。支持域Ω的主要目的是定义一个区域的大小,在该区域中,场景的外观应该是唯一的,并且在一定程度上不受照明和视角变化的影响。一些光度一致性测量不需要定义支持域:
唯一性和不变性通常是光一致性测量的两个竞争性质。Ω的域越大,域内的局部外观就越独特,这使得它更容易与其他图像匹配。同时,域越大,由于反射,深度边界,或平滑的几何假设导致就越难维持照明和视角不变性。
Citation
本文所有图片及内容均来自下面的论文。
Furukawa Y, Hernández C. Multi-view stereo: A tutorial[J]. Foundations and Trends® in Computer Graphics and Vision, 2015, 9(1-2): 1-148.