MASt3R：从3D的角度来实现图像匹配（更新中）-EW帮帮网

Abstract

图像匹配是 3D 视觉中所有性能最佳算法和pipeline的核心组件。然而，尽管匹配从根本上来说是一个 3D 问题，与相机姿态和场景几何结构有内在联系，但它通常被视为一个 2D 问题。因为匹配的目标是建立 2D 像素字段之间的对应关系，但这是一个具有潜在危险的选择。 在这项工作中，我们换一种视角，使用 DUSt3R（一种基于 Transformers 的最新且强大的 3D 重建框架）将匹配作为 3D 任务。

该方法基于点图回归，在匹配具有极端视点变化的视图方面显示出令人印象深刻的鲁棒性，但精度有限。我们的目标是提高这种方法的匹配能力，同时保持其稳健性。首先， 我们建议用一个新的神经网络头来增强 DUSt3R 网络，该头输出密集的局部特征，并用额外的匹配损失进行训练。进一步，我们解决了密集匹配的二次复杂度问题，如果不仔细处理，下游应用程序的速度会变得非常慢。我们引入了一种快速相互匹配方案，该方案不仅可以将匹配速度提高几个数量级，而且还具有理论保证。大量实验表明，我们的方法在多个匹配任务上显着优于现有技术。特别是，在极具挑战性的无地图定位数据集上，它的 VCRE AUC 比最好的已发布方法高出 30%（绝对改进）。

1.Introduction-我们要解决什么问题？如何解决？

能够在同一场景的不同图像之间建立像素之间的对应关系（称为图像匹配），构成了所有 3D 视觉应用的核心组件，spanning mapping [14,61]、local-ization [41,72], navigation [15], photogrammetry摄影测量 [34,64] and autonomous robotics in general一般自主机器人技术 [63,87]，例如，最先进的视觉定位方法绝大多数依赖于离线映射阶段的图像匹配，例如使用 COLMAP [75]，以及在线本地化步骤，通常使用 PnP [30]。在本文中，我们专注于这一核心任务，目标是在给定两个图像的情况下生成一个成对对应列表，表示为匹配。特别是，我们寻求输出高度准确和密集的匹配，这些匹配对视点和照明变化具有鲁棒性，因为这些最终是现实世界应用的限制因素[36]。

传统方法是基于局部的方法，实际上，全局信息也很关键

在过去，传统的匹配方法是分三步进行的，首先提取稀疏和可重复的关键点，然后用局部不变的特征来描述它们，最后通过比较关键点在特征空间中的距离来配对离散的关键点集。这条管道有几个优点：关键点检测器在低到中等光照和视点变化下都是精确的，关键点的稀疏性使问题在计算上很容易处理，无论何时在类似条件下查看图像，都能在毫秒内实现非常精确的匹配。这解释了SIFT[52]在COLMAP[75]这样的3D重建管道中的成功和持久性。

但是，基于关键点的方法通过减少对关键点包问题的匹配，丢弃了对应任务的全局几何上下文。 这使得它们在重复模式或低纹理区域的情况下特别容易出错，这实际上对于局部描述符来说是不适定的。 解决这个问题的一种方法是在配对步骤中引入全局优化策略，通常利用一些学习到的匹配先验知识，SuperGlue 和类似的方法成功实现了 [51,72]。然而，如果关键点及其描述符尚未编码足够的信息，那么在匹配期间利用全局上下文可能为时已晚。因此，另一个方向是考虑密集整体匹配，即完全避免关键点，并一次匹配整个图像。最近随着cross-attention的出现，这成为可能[96]。这样的方法，如 LoFTR [82]，将图像视为一个整体，并且生成的对应集是密集的，并且对于重复模式和低纹理区域更稳健 [43,68,69,82]。

匹配任务的制定本质上是一个 3D 问题,但是现有很多方法仍然没有考虑这一点，所以我们从3D角度来重新考虑这个问题

尽管如此，即使像 LoFTR [82] 这样表现最好的方法，在无地图定位基准上的 VCRE 精度也相对令人失望，为 34%。我们认为这是因为到目前为止，几乎所有匹配方法都将匹配视为图像空间中的二维问题。实际上，匹配任务的制定本质上是一个 3D 问题：对应的像素是观察相同 3D 点的像素。事实上，2D 像素对应和 3D 空间中的相对相机姿态是同一枚硬币的两个面，因为它们通过对极矩阵直接相关[36]。目前在 Map-free 基准测试中表现最好的是 DUSt3R [102]，这种方法最初是为 3D 重建而不是匹配而设计的，并且匹配只是 3D 重建的副产品，但是这个方法在匹配问题中具有很大潜力。

在本文中，我们指出，虽然 DUSt3R [102] 确实可以用于匹配，但它相对不精确，尽管对视点变化非常鲁棒。为了弥补这个缺陷，我们建议附加第二个头来回归密集的局部特征图，并使用 InfoNCE 损失对其进行训练。由此产生的架构称为 MASt3R（“匹配和立体 3D 重建”），在多个基准测试中均优于 DUSt3R。 为了获得像素精确的匹配，我们提出了一种从粗到细的匹配方案，在此方案中在多个尺度上执行匹配。每个匹配步骤都涉及从密集特征图中提取相互匹配，这可能与直觉相反，这比计算密集特征图本身要耗时得多。我们提出的解决方案是一种更快的算法，用于查找相互匹配，速度几乎快两个数量级，同时提高了姿态估计质量。总而言之，我们提出了三个主要贡献。首先，我们提出 MASt3R，这是一种基于最近发布的 DUSt3R 框架构建的 3D 感知匹配方法。它输出局部特征图，可实现高度准确且极其稳健的匹配。其次，我们提出了一种与快速匹配算法相关的从粗到细的匹配方案，能够处理高分辨率图像。第三，MASt3R 在几个绝对和相对姿势定位基准上显着优于最先进的技术。

2.Relation work-当前的几类匹配方法

关键点匹配:分三个不同的阶段进行：关键点检测、局部不变描述和描述符空间中的最近邻搜索。相比于传统方法如 SIFT [52,71] ，现代方法已经转向基于学习的数据驱动方案来检测关键点 [8,60,97,117]，描述它们 [7,33, 37,88] 或两者同时进行[10,21,53,54,70,98]。总体而言，基于关键点的方法在许多基准测试中占主导地位[7,35,44,77]，强调了它们在需要高精度和速度的任务中的持久价值[19,77]。然而，一个值得注意的问题是它们减少了与局部问题的匹配，即放弃了其整体性。因此，SuperGlue 和类似的方法 [51, 72] 建议在最后的配对步骤中执行全局推理，利用更强的先验来指导匹配，同时将检测和描述留在本地。虽然成功，但它仍然受到关键点的局部性质及其无法对强烈的观点变化保持不变的限制。

稠密匹配： 与基于关键点的方法相比，半密集[11,16,43,46,82,85]和密集方法[27,28,29,58,92,93,94,122]为建立图像对应提供了不同的范例，考虑所有可能的像素关联。很容易让人想起光流方法[22,40,42,79,80,86]，它们通常采用从粗到细的方案来降低计算复杂性。总的来说，这些方法旨在从全局角度考虑匹配，但代价是增加计算资源。 密集匹配已被证明在详细的空间关系和纹理对于理解场景几何至关重要的场景中是有效的，但是这些方法仍然将匹配视为二维问题。

相机姿态估计：该技术差异很大，但最成功的策略，在速度、准确性和鲁棒性权衡方面，基本上都是基于像素匹配[73,75,105]。匹配方法的不断改进促进了更具挑战性的相机姿态估计基准的引入，例如 Aachen Day-Night、InLoc、CO3D 或 Map-free [5, 67,84,118]，所有这些都具有强烈的视点和/或照明变化。

3D Grounding matching:利用场景物理属性的先验来提高准确性或鲁棒性在过去已被广泛探索，但大多数先前的工作只是利用极线约束进行对应的半监督学习，而没有任何根本性的改变[9,38,47,101,108,111,114,120 ]。托夫特等人。 [89]则提出通过使用从现成的单目深度预测器获得的透视变换来校正图像来改进关键点描述符。最近，姿势 [100] 或射线 [116] 的扩散，尽管严格来说并不匹配方法，但通过将 3D 几何约束纳入其姿势估计公式中，显示出了有希望的性能。最后，最近的 DUSt3R [102] 探索了从未校准图像的 3D 重建先验困难任务中恢复对应关系的可能性。尽管没有经过明确的匹配训练，但这种方法产生了有希望的结果，在无地图排行榜上名列前茅[5]。我们的贡献是通过回归局部特征并显式训练它们进行成对匹配来实现这一想法。

3.Method

给定两个图像 𝐼1 和 𝐼2，分别由参数未知的两个相机 𝐶1 和 𝐶2 拍摄，我们希望恢复一组像素对应关系 {(𝑖, 𝑗)}，其中 𝑖, 𝑗 是像素 𝑖 = (𝑢𝑖, 𝑣𝑖), 𝑗 = (𝑢 𝑗, 𝑣𝑗) ∈ {1, . 。。 , 𝑊}×{1, . 。。 , 𝐻}, 𝑊, 𝐻 分别是图像的宽度和高度。我们的方法如图所示。 2，旨在联合执行 3D 场景重建并匹配给定的两个输入图像。它基于 Wang 等人最近提出的 DUSt3R 框架 [102]。我们首先在第 3.1 节中回顾，然后在第 3.2 节中提出我们提出的匹配头及其相应的损失。然后，我们在 3.3 节中介绍了一种专门设计用于处理密集特征图的优化匹配方案，我们在 3.4 节中将其用于从粗到细的匹配。

3.1 DUSt3R

DUSt3R是输入两个视角的图片，通过auto-encoder框架，利用交叉注意力联通了两个视角的全局信息，最后网络输出对应视角的pointmap以及confidence，pointmap在深度真实值的基础上计算。大家可以查看这篇文章（DUSt3R：Geometric 3D Vision Made Easy）或者我的另一篇文章：

InstantSplat论文阅读-CSDN博客https://blog.csdn.net/m0_74310646/article/details/141145147?spm=1001.2014.3001.5501

其中，有两个关键个loss，一个是pointmap的，另一个是confidence的

3.2 Matching prediction head and loss

DUSt3R在匹配结果上不够精确，我们分析主要有两个原因：一是回归本质上受到噪声的影响，二是因为 DUSt3R 从未经过明确的匹配训练。因此我们考虑增加两个输出头：最后输出稠密的featuremap，它是一个d通道的H*W图。

我们将头部实现为与非线性 GELU 激活函数交错的简单 2 层 MLP [39]。最后，我们将每个局部特征标准化为单位范数。

匹配目标：我们希望一个图像中的每个局部描述符（应该是类似单个像素或者多个，这样就是一个矩阵）最多与另一个图像中表示场景中相同 3D 点的单个描述符匹配。为此，我们利用了 infoNCE [95] 损失： $\widehat{M}$ 的意思是两个view的pointmap的GT中，映射到同一个3D点的局部描述符，这里我的猜测i要么是单个像素要么是一个局部像素块，i和j是对应的

请注意，此匹配目标本质上是交叉熵分类损失：与等式中的回归相反。 (6)，网络只有在正确的像素而不是附近的像素时才会获得奖励。这有力地鼓励了网络实现高精度匹配。意思就是说，featuremap是坐标与特征之间的对应关系，而在前面pointmap中同一个3D点对应的像素坐标下，对应的两组特征也要一致，这才能保证 $s_{\tau }$ 最大而 $log(\cdot)$ 逼近0，从而loss最小，最后，结合回归和匹配损失得到最终的训练目标：

3.3. Fast reciprocal matching-快速相互匹配

对于给定的两个预测特征映射𝐷1，𝐷2∈ℝ𝐻×𝑊×𝑑，我们的目标是提取一组可靠的像素对应，即彼此的相互最近邻：

请看公式14，意思就是输入视角B的特征图上的像素 $D_{j}^{B}$ ，他会计算在视角A特征图中所有像素与 $D_{j}^{B}$ 的1范数，找到最小值对应的像素位置，那么公式13的M就很明确了，就是这样的一组像素对。

遗憾的是，倒数匹配的朴素实现具有𝑂(𝑊2𝐻2)的高计算复杂性，因为必须将一幅图像中的每个像素与另一幅图像中的每个像素进行比较。虽然优化最近邻(NN)搜索是可能的，例如使用K-d树[1]，但这种优化在高维特征空间中通常变得非常低效，并且在所有情况下都比MAST3R的推理时间慢几个数量级以输出𝐷1和𝐷2。

因此，我们提出了一种基于子采样的更快方法。这是一个广义上的贪心算法， 首先，从视角1（ $I_{1}$ ）中采样一组稀疏像素，记作，然后对于这个像素集，利用公式13，14得到在视角2（ $I_{2}$ ）中对应的像素点集 $V^{0}$ ，继续操作，把 $V^{0}$ 放进去，找到 $I_{1}$ 中对应的像素点集 $U^{1}$ ，这个迭代过程可以描述为：

然后，我们以上面的公式15为例来讲解后续过程，通过迭代，我们得到了属于 $I_{1}$ 的两个像素点集合： $U^{t}$ 以及 $U^{t+1}$ ，我们取这两个集合的交（理论上说不一定会有交集，但是大概率是有的，因为这是图片），然后由公式15可知，这个交集必定对应着 $I_{2}$ 中的一个像素点集，那么这两个像素点集对就是我们需要找的对象，用公式写作。

对于迭代轮数t，我们在上面已经得到了像素点对的集合 $M_{k}^{t}$ ，接下来，再考虑t+1轮数的情况，既然已经有了 $U_{n}^{t}=U_{n}^{t+1}$ ，那么对于 $U_{n}^{t+1}$ 来说，交集的区域已经不再需要，故我们更新它：，对于像素点集V也是一样的更新方式（第t+1轮去掉和第t轮的交集），这样，给定一个最大的迭代轮数，我们用这个方法几乎可以遍历整个图像像素，得到匹配率最高的像素对：，进而来判断两个图片是否匹配。

理论上的保证：快速匹配的总体复杂性是𝑂(𝑘𝑊𝐻)，其比表示为𝑊𝐻/𝑘≫的朴素方法快1倍，如图1所示。3(右)。值得指出的是，我们的快速匹配算法提取了整个集合M的一个子集，其大小由|M𝑘|≤𝑘限定。我们在补充材料中研究了该算法的收敛保证以及它如何表现出离群值过滤性质，这解释了为什么最终精度实际上高于使用完全对应集M时，见图3。3(右)。

3.4. Coarse-to-fine matching

由于注意力的二次复杂性，W.r.t.输入图像区域(𝑊×𝐻)，MASt3R仅处理最大尺寸的512个像素的图像。更大的图像将需要显著更多的计算能力来训练，而VITS还不能推广到更大的测试时间分辨率[62，65]。因此，需要对高分辨率图像(例如1M像素)进行缩小以进行匹配，然后将得到的对应关系向上缩放回原始图像分辨率。这可能会导致一些性能损失，有时足以导致定位精度或重建质量方面的显著降级。

从粗到精匹配是一种标准技术，可以保留高分辨率图像与低分辨率算法匹配的优势 [66, 86]。。我们的过程首先对两个图像的缩小版本进行匹配。我们将通过子采样 𝑘 获得的粗略对应集表示为 $M_{k}^{0}$ 。

我们在每个全分辨率图像上独立地生成 重叠的 裁剪窗口 𝑊1（视角1）和𝑊2（视角2）∈ℝ𝑤×4的像素网格。每个窗口裁剪其最大维度为512个像素，相邻窗口重叠50%。然后枚举所有窗口对 (𝑤1, 𝑤2) ∈ 𝑊1 × 𝑊2 的集合，从中我们选择覆盖大部分像素的粗略对应关系 $M_{k}^{0}$ 。具体来说，我们以贪婪的方式一对一地添加窗口对，直到覆盖 90% 的对应关系。最后，我们独立地对每个窗口对进行匹配：

从每个窗口对获得的对应关系最终被映射回原始图像坐标并连接，从而提供密集的全分辨率匹配。

4. Experimental results

我们在第 4.1 节中详细介绍了 MASt3R 的训练过程。然后，我们评估了几项任务，每次都与最先进的技术进行比较，从无地图重新定位基准 [5]（第 4.2 节）的视觉相机姿态估计、CO3D 和 RealEstate 数据集（第 4.3 节）以及第 4.4 节中的其他标准视觉定位基准开始。最后，我们在第 4.5 节中利用 MASt3R 进行密集多视图立体（MVS）重建。这里我主要关注4.1、4.3和4.5

4.1. Training

训练数据。我们使用 14 个数据集的混合来训练我们的网络：Habitat [74]、ARKitScenes [20]、Blended MVS [112]、MegaDepth [48]、Static Scenes 3D、ScanNet++ [113]、CO3D-v2 [67]、Waymo [83]、Mapfree [5]、WildRgb [2]、VirtualKitti [12]、Unreal4K [91]、TartanAir [103] 和内部数据集。这些数据集具有不同的场景类型：室内、室外、合成、现实世界、以对象为中心等。其中，10 个数据集具有度量标准真实值。当数据集没有直接提供图像对时，我们根据[104]中描述的方法提取它们。具体来说，我们利用现成的图像检索和点匹配算法来匹配和验证图像对。

训练。我们的模型架构基于公共 DUSt3R 模型 [102]，并使用相同的主干网（ViTLarge 编码器和 ViT-Base 解码器）。为了充分利用 DUSt3R 的 3D 匹配能力，我们将模型权重初始化为公开可用的 DUSt3R 检查点。在每个时期，我们随机采样 65 万对，均匀分布在所有数据集之间。我们使用余弦计划对网络进行 35 个时期的训练，并将初始学习率设置为 0.0001。与[102]类似，我们在训练时随机化图像长宽比，确保最大图像尺寸为512像素。我们将局部特征维度设置为 𝑑 = 24，匹配损失权重设置为 𝛽 = 1。重要的是，网络在训练时看到不同的尺度，因为从粗到细的匹配从缩小图像开始，然后放大图像。详细信息（参见第 3.4 节）。因此，我们在训练期间以随机裁剪的形式执行积极的数据增强。使用单应性变换图像裁剪以保留主点的中心位置。

对应关系抽样。为了生成匹配损失所需的地面实况对应（等式（10）），我们只需找到 3D 点图的GT： ˆ𝑋1,1 ↔ ˆ𝑋2,1 之间的相互对应关系。

4.3. Relative pose estimation

数据集和协议。接下来，我们评估 CO3Dv2 [67] 和 RealEstate10k [121] 数据集上的相对姿态估计任务。 CO3Dv2 包含从大约 37k 视频中提取的 600 万帧，涵盖 51 个 MS-COCO 类别。 Groundtruth 相机姿态是使用 COLMAP [75] 从每个视频的 200 帧中获得的。 RealEstate10k 是一个室内/室外数据集，包含 YouTube 上的 80K 视频剪辑，总计 1000 万帧，通过 SLAM 和捆绑调整获得相机姿势。按照[100]，我们在 CO3Dv2 的 41 个类别和 RealEstate10k 测试集中的 1.8K 视频剪辑上评估 MASt3R。每个序列长 10 帧，我们评估所有可能的 45 对之间的相对相机姿势，不使用真实焦点。

基准和指标。与以前一样，使用 MASt3R 获得的匹配项用于估计基本矩阵和相对姿势。请注意，我们的预测总是成对进行的，这与所有其他利用多个视图的方法相反（DUSt3RPnP 除外）。我们与最近的数据驱动方法进行了比较，如 RelPose [115]、RelPose++ [115]、PoseReg 和 PoseDiff [100]、最近的 RayDiff [116] 和 DUSt3R [102]，我们还报告了更传统的 SfM 方法的结果，例如使用 SuperPoint [21] 和 SuperGlue [72] (COLMAP+SPSG) 扩展的 PixSFM [50] 和 COLMAP [76]。与[100]类似，我们报告每个图像对的相对旋转精度（RRA）和相对平移精度（RTA）来评估相对位姿误差，并选择阈值𝜏 = 15来报告RTA@15和RRA@15。此外，我们计算平均精度 (mAA30)，定义为 𝑚𝑖𝑛（RRA@30，RTA@30）处角度差的精度曲线下的面积。

结果。如表 3 所示，SfM 方法在这项任务上的表现往往明显更差，这主要是由于视觉支持不佳。这是因为图像通常观察到一个小物体，再加上许多对具有较宽的基线，有时高达 180◦。相反，RayDiffusion、DUSt3R 和 MASt3R 等 3D 接地方法是该数据集上最具竞争力的两种方法，后者在两个数据集的翻译和 mAA 方面领先。值得注意的是，在 RealEstate 上，我们的 mAA 分数比最佳多视图方法至少提高了 8.7 分，比成对 DUSt3R 提高了 15.2 分。这展示了我们处理少数 input view 设置的方法的准确性和健壮性。

4.5. Multiview 3D reconstruction

最后，我们通过对获得的匹配项进行三角测量来执行 MVS。匹配是以全分辨率执行的，无需事先了解摄像机，而摄像机仅用于对 groundtruth 参考帧中的匹配项进行三角测量。我们通过几何一致性后处理去除了虚假的 3D 点 [99]。

数据集和指标。我们在 DTU [3] 数据集上评估我们的预测。与所有竞争性的学习方法相反，我们在零样本设置中应用我们的网络，即我们不在 DTU 火车集上训练或微调，而是按原样应用我们的模型。在表 3 中，我们报告了基准测试作者提供的平均准确度、完整性和倒角距离误差指标。重建形状的点的精度定义为到GT的最小欧几里得距离，GT的完整性定义为到重建形状的最小欧几里得距离。总切角距离是前两个指标的平均值。

结果。在该领域训练的数据驱动方法明显优于手工方法，将倒角误差减少了一半。据我们所知，我们是第一个在零样本环境下得出这样的结论的。 MASt3R 不仅优于 DUSt3R 基线，而且还与最佳方法竞争，所有这些都没有利用相机校准或匹配姿势，以前也没有见过这种相机设置

5.conclusion-mast3r的位姿估计和重建还是不错的，相比dust3r有所提升

使用 MASt3R 在 3D 中进行地面图像匹配，在许多公共基准测试中显着提高了相机姿势和定位任务的标准。我们通过匹配成功改进了 DUSt3R：增强鲁棒性，同时达到甚至超越单独使用像素匹配所能达到的效果。我们引入了快速倒数匹配器和从粗到细的方法来实现高效处理，使用户能够在准确性和速度之间取得平衡。 MASt3R 能够在少视图状态下执行（甚至在 top1 中），我们相信这将大大提高本地化的多功能性。