《Localisation using the Appearance of Prior Structure》 论文阅读

发布于:2025-03-28 ⋅ 阅读:(33) ⋅ 点赞:(0)

《Localisation using the Appearance of Prior Structure》

第三章 Localisation using the Appearance of Prior Structure
第四章 Information Metrics



前言

近期工作中有雷达相机联合标定的需求,搜集到可以通过度量归一化信息距离(NID)来对点云和图像进行跨模态配准的方法。其中《Localisation using the Appearance of Prior Structure》这篇论文有相关问题的全面阐述,特此记录。

Chapter 4 Information Metrics

在本章中,我们首先回顾论述本工作使用的信息基础理论和关键结论,包含信息度量空间的概念。随后我们回顾两个信息度量,即信息变差和归一化信息距离(NID),并且阐述和证明为何NID因其无偏性成为更可取的(最优选择)。最后,我们将展示如何将NID作为目标函数,应用于第3章提出的问题形式化框架。

4.1 香农信息

4.1.1 熵基础

离散随机变量的信息量概念 由克劳德·香农(Claude Shannon)在文献[95]中提出,其研究背景为 ​通信信道理论。香农定义了 ​离散随机变量X的熵(Entropy)​,如式(4.1)所示:
H ( X ) ≡ ∑ x ∈ X p X ( x ) log ⁡ ( 1 p X ( x ) ) = − ∑ x ∈ X p X ( x ) log ⁡ ( p X ( x ) )  Where:  0 log ⁡ ( 0 ) ≡ 0 (4.1) \begin{array}{l} \begin{aligned} H(X) & \equiv \sum_{x \in X} p_{X}(x) \log \left(\frac{1}{p_{X}(x)}\right) \\ & =-\sum_{x \in X} p_{X}(x) \log \left(p_{X}(x)\right) \end{aligned}\\ \text { Where: } 0 \log (0) \equiv 0 \end{array}\tag{4.1} H(X)xXpX(x)log(pX(x)1)=xXpX(x)log(pX(x)) Where: 0log(0)0(4.1)
其中: p X ( x ) = P r ( X = x ) p_X(x)=Pr(X=x) pX(x)=Pr(X=x)。需特别之处的是,公式4.1中对数的底数并没有明确指定,其选择决定了信息量的单位:如果使用以2为底,信息量单位是比特,如果使用以自然对数为底,信息量为奈特。

熵可视为对随机变量 X X X的不确定性(Uncertainty)​或随机性(Randomness)​的度量,或等效地,视为 ​通过观测 X X X所获得的信息量。严格而言,熵是 ​自信息(Self-Information) I I I的期望值,其中 I I I表示单次观测 X X X的信息量。 I I I本身是一个随机变量,其定义由式(4.2)给出:
I ( X = x ) ≡ log ⁡ ( 1 p X ( x ) ) (4.2) I(X=x) \equiv \log \left(\frac{1}{p_{X}(x)}\right)\tag{4.2} I(X=x)log(pX(x)1)(4.2)
直观而言,事件越不可能发生,其被观测到时所传递的信息量就越大。一个几乎必然发生的事件(如概率接近1)提供的信息量极少,而一个非常不可能发生的事件(如概率接近0)则能传递大量信息。这一关系可直观地由图4.1a展示,该图以偏置硬币抛掷中正面朝上的概率为自变量,绘制了对应信息量的变化曲线。

有偏硬币抛掷的熵(即信息量)作为正面概率的函数关系展示于图4.1b中。对于公平硬币(正面概率 = 反面概率),​熵达到最大值,这一结论符合直觉。若硬币存在偏置(无论是偏向正面还是反面),则抛掷结果的​不确定性将降低。

在这里插入图片描述
图4.1 有偏硬币抛掷为正面朝上的正面自信息4.1a和熵4.1b随证明概率的变化的变化曲线。在图4.1a的极限情况下,当 p h e a d s ⟶ 0 p_{heads}\longrightarrow0 pheads0时, I ( h e a d s ) ⟶ ∞ I(heads)\longrightarrow\infty I(heads)

4.1.2 信息量

4.1.1节中引入的​熵概念可自然扩展至双变量情形。尽管这可通过将原随机变量视为两个新随机变量结果并集的某个子集来简化理解,但以图形化方式呈现这些双变量熵项(如图4.2所示)能更直观地揭示其相互关系。图中,每个圆代表一个随机变量,其面积对应熵或信息量。

随机变量X和Y的联合熵,记作H(X,Y),如4.3式所示,
H ( X , Y ) ≡ ∑ x ∈ X , y ∈ Y − p X Y ( x , y ) l o g ( p X Y ( x , y ) ) (4.3) H(X,Y)\equiv\sum_{x\in X,y\in Y}{-p_{XY}(x,y)log(p_{XY}(x,y))}\tag{4.3} H(X,Y)xX,yYpXY(x,y)log(pXY(x,y))(4.3)
表示{X∪Y}的总信息。
​若X与Y独立,由于X不提供关于Y的任何信息,总信息量满足可加性:H(X,Y)=H(X)+H(Y)。 ​若X与Y不独立,如图4.2所示,此时H(X,Y)<H(X)+H(Y),因为Y中存在与X共有的信息,此类信息不应被重复计算。

在这里插入图片描述
图4.2 常见多元熵量关系的维恩图表示。

X X X Y Y Y的共有信息称为互信息(Mutual Information)​,记作 I ( X ; Y ) I(X;Y) I(X;Y)(式(4.6)):
I ( X ; Y ) ≡ H ( X ) + H ( Y ) − H ( X , Y ) (4.6) I(X;Y)\equiv H(X)+H(Y)-H(X,Y)\tag{4.6} I(X;Y)H(X)+H(Y)H(X,Y)(4.6)
互信息是衡量 X X X Y Y Y相似性的重要指标。
条件熵(Conditional Entropy)​,记作 H ( X ∣ Y ) H(X∣Y) H(XY)(式(4.7)),表示已知Y后X的剩余信息量​(或不确定性):
H ( X ∣ Y ) ≡ H ( X , Y ) − H ( Y ) (4.7) H(X\mid Y)\equiv H(X,Y)-H(Y)\tag{4.7} H(XY)H(X,Y)H(Y)(4.7)

4.1.3 熵的等价性

在探讨信息空间中的度量概念前,需明确 ​熵理论的核心特性:​熵并非取决于事件所代表的具体数值(如传感器读数、像素灰度值等),而完全由事件的概率分布决定。因此,​即使任意改变事件对应的数值或符号​(如将激光雷达距离值映射为颜色编码),​只要所有事件的概率分布保持不变,与该随机变量相关的任何熵量(如联合熵、条件熵)均维持不变。

例如,在前述的抛硬币案例中,​即使交换代表正面或反面的事件符号,熵值仍保持不变。如图4.1b所示,这一特性体现为熵曲线在公平硬币处的对称性。图形化解释:对于任意单变量离散分布,若将其概率分布的柱状图顺序任意重新排列(如图4.3所示),熵值亦保持不变。

在这里插入图片描述
图4.3 单变量分布的熵保持性置换。在图4.3a中,与随机变量 X X X事件相关联的数值经过任意排列后,形成图4.3b中的 X ′ X^\prime X ,但熵值保持不变: H ( X ) = H ( X ′ ) H(X)=H(X^{\prime}) H(X)=H(X)

当考虑两个离散随机变量的联合分布​(表示为概率矩阵)时,​联合熵 H ( X , Y ) H(X,Y) H(X,Y)在矩阵中单个元素值的任意置换下保持不变。然而,这种置换操作通常不会保留边缘熵 H ( X ) H(X) H(X) H ( Y ) ​ H(Y)​ H(Y)(即矩阵行和列的和)。但若对联合分布矩阵的行和/或列进行任意整体置换,则联合熵与边缘熵均保持不变。如图4.4所示。

在这里插入图片描述
图4.4:双变量联合分布的熵保持性置换。在图示案例中,与随机变量 X X X Y Y Y事件相关联的数值经过任意置换(对应联合分布矩阵 p X Y p_{XY} pXY 的行列置换),生成新的联合分布 p X ′ Y ′ p_{X^{\prime}Y^{\prime}} pXY。如图4.4所示,所有熵相关量(如联合熵、边缘熵、互信息)均保持不变。

事件关联值的根本独立性是熵方法能够用于多模态数据对齐的理论基础,即使不同模态之间可能不存在明确的映射关系。例如,若随机变量代表颜色,则此特性意味着:​我们可以任意改变X和Y颜色空间的离散量化方式​(如颜色空间反转、RGB↔HSV转换等),而所有熵相关量均保持不变。我们将在第4.4节结合具体问题重新探讨这一特性,并在第4.4.3节展示实验结果。

该性质的一个推论是:若离散概率分布是从数据中估计得到的,则熵的数值与用于估计该分布的数据点数量无关。

4.1.4 熵度量的度量空间

我们将回顾利用熵相关量作为两个不同分布之间的距离度量。形式化而言,​度量函数 d ( x , y ) d(x,y) d(x,y) 是空间 M \mathcal M M 上的一种距离定义,其必须满足以下四个条件 [119]:
a. 非负性: d ( x , y ) ≥ 0 ∀ { x , y } ∈ M d(x,y)\ge0 \quad\forall\{x,y\}\in\mathcal{M} d(x,y)0{x,y}M
b. 等价性: d ( x , y ) = 0 ⟺ x = y d(x,y)=0\Longleftrightarrow x=y d(x,y)=0x=y
c. 对称性: d ( x , y ) = d ( y , x ) d(x,y)=d(y,x) d(x,y)=d(y,x)
d. 三角不等式: d ( x , y ) + d ( y , z ) ≥ d ( x , z ) d(x,y)+d(y,z)\ge d(x,z) d(x,y)+d(y,z)d(x,z)

在考虑度量熵测度时,需谨记:如第4.1.3节所述,这些度量要求需在 ​对随机变量事件关联概率的任意置换下成立。因此,一个满足度量条件的熵测度应满足: d ( X , X ′ ) = d ( X ′ , X ) = 0 d(X,X^{\prime})=d(X^{\prime},X)=0 d(X,X)=d(X,X)=0(见图4.3)。这与常见的度量空间(如欧几里得空间)有本质区别,在欧氏空间中,若对向量 x x x的元素进行置换得到 x ′ x^{\prime} x ,通常有: L 2 ( x , x ) = 0 ≠ L 2 x , x ′ L_{2}(x,x)=0\ne L_2{x,x^{\prime}} L2(x,x)=0=L2x,x

互信息 I ( X ; Y ) I(X;Y) I(X;Y) 可作为两个分布间相似性的度量,且当其中一个变量完全包含另一变量的信息时达到最大值。假设 X X X Y Y Y来自同一空间(即它们具有相同数量的离散事件),则当 X = Y X=Y X=Y时互信息达到最大值。

互信息 I(X;Y) 是对称的,且具有明确定义的最大值: I m a x ( X ; Y ) = m i n ( H m a x ( X ) , H m a x ( Y ) ) I_{max}(X;Y)=min(H_{max}(X),H_{max}(Y)) Imax(X;Y)=min(Hmax(X),Hmax(Y)),如图4.2所示,因此通过线性操作可能满足等价性。然而,它不满足三角不等式,因而并非严格度量。

我们现在将讨论两个熵量严格的度量,即信息变差(VI)和归一化信息距离(NID)。

4.2 信息变差

信息变差定义如公式4.8所示,:
V I ( X , Y ) ≡ H ( X ∣ Y ) + H ( Y ∣ X ) = H ( X ) + H ( Y ) − 2 ⋅ I ( X , Y ) = H ( X ) + H ( Y ) − 2 ⋅ ( H ( X ) + H ( Y ) − H ( X , Y ) ) = 2 ⋅ H ( X , Y ) − H ( X ) − H ( Y ) (4.8) \begin{array}{l} \begin{aligned} VI(X,Y) & \equiv H(X|Y)+H(Y|X)\\ & = H(X)+H(Y)-2\cdot I(X,Y) \\ & = H(X)+H(Y)-2\cdot(H(X)+H(Y)-H(X,Y))\\ & = 2\cdot H(X,Y)-H(X)-H(Y) \end{aligned}\\ \end{array}\tag{4.8} VI(X,Y)H(XY)+H(YX)=H(X)+H(Y)2I(X,Y)=H(X)+H(Y)2(H(X)+H(Y)H(X,Y))=2H(X,Y)H(X)H(Y)(4.8)
如图4.5所示,信息变差是一种严格的度量,可用于通过概率分布比较随机变量。接下来我们将证明其满足度量公理,并说明其有界性。

4.2.1 信息变差的性质

  1. 性质1:VI是一个度量。
    证明:为了成为 M \mathcal{M} M空间的度量,函数 d ( x , y ) d(x,y) d(x,y)必须满足第4.4节中的四个性质:
    a. 非负性: V I ( X , Y ) ≥ 0 ∀ { X , Y } VI(X,Y)\ge 0 \quad \forall \{X,Y\} VI(X,Y)0{X,Y}
    由定义可得 H ( X ) ≥ 0 H(X)\ge0 H(X)0以及 m i n ( H ( X ) , H ( Y ) ) ≥ I ( X ; Y ) ≥ 0 min(H(X),H(Y))\ge I(X;Y)\ge0 min(H(X),H(Y))I(X;Y)0,因此 V I ( X , Y ) = H ( X ) + H ( Y ) − 2 ⋅ I ( X , Y ) ≥ 0 VI(X,Y)=H(X)+H(Y)-2\cdot I(X,Y)\ge0 VI(X,Y)=H(X)+H(Y)2I(X,Y)0成立。
    b. 等价性: V I ( X , Y ) = 0 ⟺ X = Y VI(X,Y)=0\Longleftrightarrow X=Y VI(X,Y)=0X=Y
    V I ( X , Y ) = 0 VI(X,Y)=0 VI(X,Y)=0要求的 2 ⋅ H ( X , Y ) − H ( X ) − H ( Y ) = 0 2\cdot H(X,Y)-H(X)-H(Y)=0 2H(X,Y)H(X)H(Y)=0可通过 H ( X , Y ) = H ( X ) = H ( Y ) H(X,Y)=H(X)=H(Y) H(X,Y)=H(X)=H(Y)得到满足,这意味着 X = Y X=Y X=Y
    c. 对称性: V I ( X , Y ) = V I ( Y , X ) VI(X,Y)=VI(Y,X) VI(X,Y)=VI(Y,X)
    满足定义,因为熵的加法是可交换的(熵的加法满足交换律),因此:
    H ( X ∣ Y ) + H ( Y ∣ X ) = H ( Y ∣ X ) + H ( X ∣ Y ) H(X|Y)+H(Y|X)=H(Y|X)+H(X|Y) H(XY)+H(YX)=H(YX)+H(XY)
    d. 三角不等式: V I ( X , Y ) + V I ( Y , Z ) ≥ V I ( X , Z ) VI(X,Y)+VI(Y,Z)\ge VI(X,Z) VI(X,Y)+VI(Y,Z)VI(X,Z)
    按照文献[68]的方法,我们首先使用公式4.9中的熵恒等式,针对离散随机变量 { X , Y , Z } \{X,Y,Z\} {X,Y,Z}推导出式4.10。
    H ( A ∣ B ) ≥ H ( A ∣ B , C ) H ( A ∣ B ) ≡ H ( A , B ) − H ( B ) H ( A , B ) ≥ H ( A ∣ B ) } ∀ random variables { A , B , C } (4.9) \left.\begin{matrix} H(A|B)\ge H(A|B,C)\\ H(A|B)\equiv H(A,B)-H(B)\\ H(A,B)\ge H(A|B) \end{matrix}\right\}\forall\quad \text {random variables} \{A,B,C\} \tag{4.9} H(AB)H(AB,C)H(AB)H(A,B)H(B)H(A,B)H(AB) random variables{A,B,C}(4.9)

H ( Y ∣ X ) + H ( Z ∣ Y ) − H ( Z ∣ X ) ≥ H ( Y ∣ X ) + H ( Z ∣ Y , X ) − H ( Z ∣ X ) = H ( X , Y ) − H ( X ) + H ( X , Y , Z ) − H ( X , Y ) − H ( Z ∣ X ) = H ( X , Y , Z ) − H ( X ) − H ( Z ∣ X ) = H ( Y , Z ∣ X ) − H ( Z ∣ X ) = H ( Y ∣ Z , X ) + H ( Z ∣ X ) − H ( Z ∣ X ) = H ( Y ∣ Z , X ) ≥ 0 ∴ H ( Y ∣ X ) + H ( Z ∣ Y ) − H ( Z ∣ X ) ≥ 0 ( 4.10 ) \begin{aligned} H(Y\mid X)+H(Z\mid Y)-H(Z\mid X) \\ & \geq H(Y\mid X)+H(Z\mid Y,X)-H(Z\mid X) \\ & =H(X,Y)-H(X)+H(X,Y,Z)-H(X,Y)-H(Z\mid X) \\ & =H(X,Y,Z)-H(X)-H(Z\mid X) \\ & =H(Y,Z\mid X)-H(Z\mid X) \\ & =H(Y|Z,X)+H(Z|X)-H(Z|X)\\ &=H(Y|Z,X)\\ &\ge0\\ \therefore H(Y\mid X)+H(Z\mid Y)-H(Z\mid X)\geq0 & & (4.10) \end{aligned} H(YX)+H(ZY)H(ZX)H(YX)+H(ZY)H(ZX)0H(YX)+H(ZY,X)H(ZX)=H(X,Y)H(X)+H(X,Y,Z)H(X,Y)H(ZX)=H(X,Y,Z)H(X)H(ZX)=H(Y,ZX)H(ZX)=H(YZ,X)+H(ZX)H(ZX)=H(YZ,X)0(4.10)
现取式(4.10),交换 X X X Z Z Z后与原式(4.10)相加,并利用式(4.8)中 ​VI 的定义,可将结果简化为 VI的三角不等式。
H ( Y ∣ X ) + H ( Z ∣ Y ) − H ( Z ∣ X ) + H ( Y ∣ Z ) + H ( X ∣ Y ) − H ( X ∣ Z ) ≥ 0 V I ( X , Y ) + V I ( Y , Z ) − V I ( X , Z ) ≥ 0 V I ( X , Y ) + V I ( Y , Z ) ≥ V I ( X , Z ) (4.11) \begin{gathered} H(Y\mid X)+H(Z\mid Y)-H(Z\mid X) \\ +H(Y\mid Z)+H(X\mid Y)-H(X\mid Z)\geq0 \\ \mathrm{VI}(X,Y)+\mathrm{VI}(Y,Z)-\mathrm{VI}(X,Z)\geq0 \\ \mathrm{VI}(X,Y)+\mathrm{VI}(Y,Z)\geq\mathrm{VI}(X,Z) \end{gathered}\tag{4.11} H(YX)+H(ZY)H(ZX)+H(YZ)+H(XY)H(XZ)0VI(X,Y)+VI(Y,Z)VI(X,Z)0VI(X,Y)+VI(Y,Z)VI(X,Z)(4.11)
2. 性质2:VI上下都有边界。
证明:当 X = Y X=Y X=Y时,下界(最小值)​已在VI性质1 中证明为零。对于上界,根据式(4.8)可知,当 X X X Y Y Y的条件熵最大化时, V I ( X , Y ) VI(X,Y) VI(X,Y)达到最大值,因为条件作用不会增加熵​(如式(4.9)所示)。

X X X Y Y Y独立( X ⊥ Y X\perp Y XY)时,条件熵达到最大值,即 H ( X ∣ Y ) = H ( X ) 且 H ( Y ∣ X ) = H ( Y ) H(X∣Y)=H(X) 且 H(Y∣X)=H(Y) H(XY)=H(X)H(YX)=H(Y)。最后,对于离散随机变量,​均匀分布的熵最大,其值为 log ⁡ ( k X ) \log(k_X) log(kX)且满足对数性质 log ⁡ ( a ) + log ⁡ ( b ) = log ⁡ ( a ⋅ b ) \log(a)+\log(b)=\log(a\cdot b) log(a)+log(b)=log(ab)。因此,​信息变差(VI)在以下区间内有界当时: log ⁡ ( k X ⋅ k Y ) ≥ V I ( X , Y ) ≥ 0 \log(k_X\cdot k_Y)\ge VI(X,Y)\ge0 log(kXkY)VI(X,Y)0

4.2.2 等价问题

尽管信息变差(VI)看似是两种分布间的理想距离度量,但其存在一个尚未解决的重大问题:​VI 的数值受分布总信息量的偏差影响 [51, 44]。
再次考虑图4.5,VI 由阴影区域的总面积表示,因此任何非重叠面积相同的分布排列(即使圆的大小不同)都会得到相同的 VI 值。这意味着,即使某个变量的信息量急剧下降,只要互信息也同步缩减,VI 的数值仍可保持不变。图4.6 直观展示了此场景:当 H ( Y 2 ) < < H ( Y 1 ) , I ( X 2 ; Y 2 ) < < I ( X 1 ; Y 1 ) H(Y_2)<<H(Y_1),I(X_2;Y_2)<<I(X_1;Y_1) H(Y2)<<H(Y1),I(X2;Y2)<<I(X1;Y1)时, V I ( X 1 , Y 1 ) ≈ V I ( X 1 , Y 2 ) VI(X_1,Y_1)\approx VI(X_1,Y_2) VI(X1,Y1)VI(X1,Y2)
这一问题促使我们引入标准化信息距离(Normalised Information Distance)​作为替代的信息度量。

此问题同样影响纯粹的互信息​(尽管互信息本身并非度量函数,但仍用于数据对齐任务)。文献 [107] 描述了医学影像对齐中的此类问题:由于图像重叠区域的比例不同,导致前景与背景的分布比例差异,从而引发偏差。该文献提出的解决方案是 ​标准化互信息(Normalised Mutual Information)​,我们将在第4.3.4节进一步讨论。

此问题看似抽象,但若在问题建模中将 VI 作为距离函数(如第4.4.3节图4.15所示),其实际影响将导致性能显著下降。

在这里插入图片描述
图4.6:息变差(VI)等价问题:在这两种情况下,代表信息变差的阴影区域面积相等。但在比较分布时,我们需要区分这两种情形。由于左侧案例中具有相等的边缘熵和更大的互信息,我们需要一个新的距离度量,使得 d ( x 1 , y 1 ) < d ( x 2 , y 2 ) d(x_1,y_1)<d(x_2,y_2) d(x1,y1)<d(x2,y2)

4.3 归一化信息距离

对于两个离散随机变量 { X , Y } \{X,Y\} {X,Y},​归一化信息距离(Normalised Information Distance, NID)​[50, 51] 是一种通过以总(联合)熵 为基准对信息变差(Variation of Information, VI)​ 进行归一化而得到的相对距离度量。其正式定义如式(4.12)所给出的 NID(X,Y)。
N I D ( X , Y ) ≡ V I ( X , Y ) H ( X , Y ) = H ( X ∣ Y ) + H ( Y ∣ X ) H ( X , Y ) = H ( X , Y ) − I ( X ; Y ) H ( X , Y ) (4.12) \begin{aligned} \mathrm{NID}(X,Y) & \equiv\frac{\mathrm{VI}(X,Y)}{H(X,Y)} \\ & =\frac{H(X\mid Y)+H(Y\mid X)}{H(X,Y)} \\ & =\frac{H(X,Y)-I(X;Y)}{H(X,Y)} \end{aligned}\tag{4.12} NID(X,Y)H(X,Y)VI(X,Y)=H(X,Y)H(XY)+H(YX)=H(X,Y)H(X,Y)I(X;Y)(4.12)

鉴于它们之间的密切关系,NID继承了前文所述VI性质的若干变体。对于离散随机变量,NID同样是一个严格度量,并且其值在两个方向上均有界,我们将在第4.3.2节对此进行证明。此外,通过以联合熵 H(X,Y) 对VI进行归一化,NID解决了第4.2.2节中指出的分布熵相关偏差问题。

4.3.1 归一化信息距离变量

尽管式(4.12)中的NID形式为早期定义[50],但存在另一种由式(4.13)给出的后续变体[51],该变体同样被称为归一化信息距离,且同样满足度量性质(取值范围为[0, 1])。

由于NID实际是一种描述,因此含义模糊,在文献[51]中,式4.12被称为归一化信息距离,式4.13同样被称为归一化信息距离。其它近期研究单独将式4.12称为归一化信息变差(NVI)。
N I D ′ ( X , Y ) ≡ max ⁡ ( H ( X ∣ Y ) , H ( Y ∣ X ) ) max ⁡ ( H ( X ) , H ( Y ) ) (4.13) \mathrm{NID}^{\prime}(X, Y) \equiv \frac{\max (H(X \mid Y), H(Y \mid X))}{\max (H(X), H(Y))}\tag{4.13} NID(X,Y)max(H(X),H(Y))max(H(XY),H(YX))(4.13)

在文献[51]中,作者主张式4.13应作为比式4.12更优的定义,因为尽管两者均为普适性(通用)度量,但式4.13的普适性边界更为严格。然而,如文献[44]所述,文献[51]中呈现的结果并未明确展示其优势。

此外,式(4.12)相比较式(4.13)有一个关键性优势:它是可微的(可微性)。由于我们希望使用基于梯度的优化方法,因为它们的性能通过会显著提高(优于非梯度的方法),任何目标函数均需具备可微性。因此,在本研究中,我们将始终采用式(4.12)作为NID的定义。

4.3.2 归一化信息距离的性质

  1. 性质1
    NID是一个度量。
    证明 为了成为空间 M \mathcal{M} M中的一个度量,函数 d ( x , y ) d(x,y) d(x,y)必须满足章节4.1.4中的四个性质。
  • a. 非负性: NID ( X , Y ) ≥ 0 ∀ { X , Y } \text{NID}(X,Y)\ge0\quad\forall\{X,Y\} NID(X,Y)0{X,Y}
    由定义得, VI ( X , Y ) ≥ 0 \text{VI}(X,Y)\ge 0 VI(X,Y)0 H ( X , Y ) ≥ 0 H(X,Y)\ge 0 H(X,Y)0,因此 NID ( X , Y ) ≥ 0 \text{NID}(X,Y)\ge 0 NID(X,Y)0
  • b. 等价性: NID ( X , Y ) = 0 ⟺ X = Y \text{NID}(X,Y)=0\Longleftrightarrow X=Y NID(X,Y)=0X=Y
    由于VI是一个度量, VI ( X , Y ) = 0 ⟺ X = Y \text{VI}(X,Y)=0\Longleftrightarrow X=Y VI(X,Y)=0X=Y,因此 NID ( X , Y ) ⟺ X = Y \text{NID}(X,Y)\Longleftrightarrow X=Y NID(X,Y)X=Y
  • c. 对称性: NID ( X , Y ) = NID ( Y , X ) \text{NID}(X,Y)=\text{NID}(Y,X) NID(X,Y)=NID(Y,X)
    由于信息变差(VI)与联合熵 H(X,Y) 均满足对称性,该条件得以成立。
  • d. 三角不等式: NID ( X , Y ) + NID ( Y , Z ) ≥ NID ( X , Z ) \text{NID}(X,Y)+\text{NID}(Y,Z)\ge\text{NID}(X,Z) NID(X,Y)+NID(Y,Z)NID(X,Z)
    遵循文献[44,114]的方法,首先我们推导离散随机变量 { X , Y , Z } \{X,Y,Z\} {X,Y,Z}的等式4.15。
    回顾VI性质1的等式(4.10),通过重新排列可得到式(4.14)。在此基础上,​对变量组 { X , Y , Z } \{X,Y,Z\} {X,Y,Z}进行置换 ( X ⟶ Y , Y ⟶ Z , Z ⟶ X ) (X\longrightarrow Y,Y\longrightarrow Z,Z\longrightarrow X) (XYYZZX)后,​不失一般性可导出式(4.15)。
    H ( Y ∣ X ) + H ( Z ∣ Y ) − H ( Z ∣ X ) ≥ 0 (4.10) H(Y\mid X)+H(Z\mid Y)-H(Z\mid X)\ge0\tag{4.10} H(YX)+H(ZY)H(ZX)0(4.10) H ( Z ∣ Y ) + H ( Y ∣ X ) ≥ H ( Z ∣ X ) (4.14) H(Z\mid Y)+H(Y\mid X)\geq H(Z\mid X)\tag{4.14} H(ZY)+H(YX)H(ZX)(4.14) H ( X ∣ Z ) + H ( Z ∣ Y ) ≥ H ( X ∣ Y ) (4.15) H(X\mid Z)+H(Z\mid Y)\geq H(X\mid Y)\tag{4.15} H(XZ)+H(ZY)H(XY)(4.15)

现在考虑式4.12,我们可以将NID重写为式4.16,并且为了证明三角不等式,我们需要对右侧的每一项证明三角不等式。然而,基于对称性,我们只需对两项中的一项进行证明即可:
N I D ( X , Y ) = H ( X ∣ Y ) H ( X , Y ) + H ( Y ∣ X ) H ( X , Y ) (4.16) \mathrm{NID}(X,Y)=\frac{H(X\mid Y)}{H(X,Y)}+\frac{H(Y\mid X)}{H(X,Y)}\tag{4.16} NID(X,Y)=H(X,Y)H(XY)+H(X,Y)H(YX)(4.16)
考虑第一个右侧项,通过应用式4.15,我们可以证明这个量的的三角不等式,并且通过对称性来证明NID的三角不等式。
H ( X ∣ Y ) H ( X , Y ) = H ( X ∣ Y ) H ( Y ) + H ( X ∣ Y ) ( 4.17 ) ≤ H ( X ∣ Z ) + H ( Z ∣ Y ) H ( Y ) + H ( X ∣ Z ) + H ( Z ∣ Y ) ( 4.18 ) = H ( X ∣ Z ) + H ( Z ∣ Y ) H ( X ∣ Z ) + H ( Y , Z ) ( 4.19 ) ≤ H ( X ∣ Z ) H ( X ∣ Z ) + H ( Z ) + H ( Z ∣ Y ) H ( Y , Z ) ( 4.20 ) = H ( X ∣ Z ) H ( X , Z ) + H ( Z ∣ Y ) H ( Z , Y ) ( 4.21 ) ∴ H ( X ∣ Y ) H ( X , Y ) ≤ H ( X ∣ Z ) H ( X , Z ) + H ( Z ∣ Y ) H ( Z , Y ) ( 4.22 ) ⇒ H ( X ∣ Z ) H ( X , Z ) ≤ H ( X ∣ Y ) H ( X , Y ) + H ( Y ∣ Z ) H ( Y , Z ) ( 4.23 ) \begin{aligned} & \frac{H(X\mid Y)}{H(X,Y)} =&&\frac{H(X\mid Y)}{H(Y)+H(X\mid Y)} & & (4.17) \\ & & & \leq\frac{H(X\mid Z)+H(Z\mid Y)}{H(Y)+H(X\mid Z)+H(Z\mid Y)} & & (4.18) \\ & & & =\frac{H(X\mid Z)+H(Z\mid Y)}{H(X\mid Z)+H(Y,Z)} & & (4.19) \\ & & & \leq\frac{H(X\mid Z)}{H(X\mid Z)+H(Z)}+\frac{H(Z\mid Y)}{H(Y,Z)} & & (4.20) \\ & & & =\frac{H(X\mid Z)}{H(X,Z)}+\frac{H(Z\mid Y)}{H(Z,Y)} & & (4.21) \\ & \therefore\frac{H(X\mid Y)}{H(X,Y)} & & \leq\frac{H(X\mid Z)}{H(X,Z)}+\frac{H(Z\mid Y)}{H(Z,Y)} & & (4.22) \\ & \Rightarrow\frac{H(X\mid Z)}{H(X,Z)} & & \leq\frac{H(X\mid Y)}{H(X,Y)}+\frac{H(Y\mid Z)}{H(Y,Z)} & & (4.23) \end{aligned} H(X,Y)H(XY)=H(X,Y)H(XY)H(X,Z)H(XZ)H(Y)+H(XY)H(XY)H(Y)+H(XZ)+H(ZY)H(XZ)+H(ZY)=H(XZ)+H(Y,Z)H(XZ)+H(ZY)H(XZ)+H(Z)H(XZ)+H(Y,Z)H(ZY)=H(X,Z)H(XZ)+H(Z,Y)H(ZY)H(X,Z)H(XZ)+H(Z,Y)H(ZY)H(X,Y)H(XY)+H(Y,Z)H(YZ)(4.17)(4.18)(4.19)(4.20)(4.21)(4.22)(4.23)

  1. 性质2
    NID两个方向都有界: 1 ≥ NID ( X , Y ) ≥ 0 1\ge \text{NID}(X,Y)\ge0 1NID(X,Y)0
    证明 由VI性质2可得: H ( X , Y ) ≥ V I ( X , Y ) ≥ 0 H(X,Y)\ge VI(X,Y)\ge 0 H(X,Y)VI(X,Y)0,很明显 1 ≥ NID ( X , Y ) ≥ 0 1\ge \text{NID}(X,Y)\ge0 1NID(X,Y)0

4.3.3 归一化的重要性

在NID中,通过联合信息归一化修正了第4.2.2节指出的VI等价性问题。为了理解这一机制,再次考查图4.6,尽管 V I ( X 1 , Y 1 ) = V I ( X 2 , Y 2 ) VI(X_1,Y_1)=VI(X_2,Y_2) VI(X1,Y1)=VI(X2,Y2),但联合信息不同,即 H ( X 1 , Y 1 ) > H ( X 2 , Y 2 ) H(X_1,Y_1)> H(X_2,Y_2) H(X1,Y1)>H(X2,Y2)。因此,经过归一化后 NID ( X 1 , Y 1 ) < NID ( X 2 , Y 2 ) \text{NID}(X_1,Y_1)<\text{NID}(X_2,Y_2) NID(X1,Y1)<NID(X2,Y2),这与预期一致。

4.3.4 与归一化互信息的关系

归一化互信息(NMI)的定义如式(4.24)所示:
N M I ( X , Y ) ≡ H ( X ) + H ( Y ) H ( X , Y ) (4.24) \mathrm{NMI}(X,Y)\equiv\frac{H(X)+H(Y)}{H(X,Y)}\tag{4.24} NMI(X,Y)H(X,Y)H(X)+H(Y)(4.24)
该度量最早由文献[107]提出,通过最大化NMI实现了多模态医学图像的对齐。此后,NMI被其他研究广泛采用,包括文献[122]——其问题形式化框架与本研究框架类似。如第4.2.2节所讨论的,​归一化互信息(NMI)​ 的提出旨在解决与 ​归一化信息距离(NID)​相同的 因总信息量导致的偏差问题。事实上,NMI是NID的一个简单线性函数:
N I D ( X , Y ) = H ( X ∣ Y ) + H ( Y ∣ X ) H ( X , Y ) = H ( X , Y ) − I ( X ; Y ) H ( X , Y ) = 2 ⋅ H ( X , Y ) − H ( X ) − H ( Y ) H ( X , Y ) = 2 ⋅ H ( X , Y ) H ( X , Y ) − H ( X ) + H ( Y ) H ( X , Y ) = 2 − N M I ( X , Y ) (4.25) \begin{aligned} \mathrm{NID}(X,Y) & =\frac{H(X\mid Y)+H(Y\mid X)}{H(X,Y)} \\ & =\frac{H(X,Y)-I(X;Y)}{H(X,Y)} \\ & =\frac{2\cdot H(X,Y)-H(X)-H(Y)}{H(X,Y)} \\ & =\frac{2\cdot H(X,Y)}{H(X,Y)}-\frac{H(X)+H(Y)}{H(X,Y)} \\ & =2-\mathrm{NMI}(X,Y) \end{aligned}\tag{4.25} NID(X,Y)=H(X,Y)H(XY)+H(YX)=H(X,Y)H(X,Y)I(X;Y)=H(X,Y)2H(X,Y)H(X)H(Y)=H(X,Y)2H(X,Y)H(X,Y)H(X)+H(Y)=2NMI(X,Y)(4.25)
但需注意,归一化互信息并非一个度量,因其取值范围为 1 ≤ NMI ( X , Y ) ≤ 2 1\le \text{NMI}(X,Y) \le2 1NMI(X,Y)2,其中:
NID ( X , Y ) = 2 \text{NID}(X,Y)=2 NID(X,Y)=2 NMI ( X , Y ) = 1 ⟺ X ⊥ Y \text{NMI}(X,Y)=1\Longleftrightarrow X \perp Y NMI(X,Y)=1XY。因此,NMI ​不满足度量公理的等价性​,且​其值需最大化而非最小化,故 并非距离函数,同时 不满足三角不等式。
问题1:等价性要求距离$d(x,y)=0$,但是NMI最小为1。问题2:不满足三角不等式。

4.4 NID在LAPS中的应用

LAPS:Localisation using the Appearance of Prior Structure
再次考虑第3.1.2节给出的优化问题形式化框架:
arg ⁡ min ⁡ G R , W ∑ c C a m e r a s f d i s t a n c e ( I c ( S ‾ c ) , I S ( S ‾ c ) ) = arg ⁡ min ⁡ G R , W ∑ c C a m e r a s f d i s t a n c e ( I c ( x ) , I S ( q ) ∣ ∀ q ∈ S ‾ c ) (3.4) \begin{aligned} & \arg\min_{G_{R,W}}\sum_{c}^{\mathrm{Cameras}}f_{\mathrm{distance}}\left(\mathcal{I}_{c}(\overline{\mathcal{S}}_{c}),\mathcal{I}_{\mathcal{S}}(\overline{\mathcal{S}}_{c})\right) \\ & =\arg\min_{G_{R,W}}\sum_{c}^{\mathrm{Cameras}}f_{\mathrm{distance}}\left(\mathcal{I}_{c}(\boldsymbol{x}),\mathcal{I}_{\mathcal{S}}(\boldsymbol{q})|\forall\boldsymbol{q}\in\overline{\mathcal{S}}_{c}\right) \end{aligned}\tag{3.4} argGR,WmincCamerasfdistance(Ic(Sc),IS(Sc))=argGR,WmincCamerasfdistance(Ic(x),IS(q)∣∀qSc)(3.4)

通过将先验 S ˉ \bar S Sˉ每个点的外观与在 G R , W G_{R,W} GR,W各个相机的实时图像建模为两个离散随机变量的联合样本,我们可以为每个相机构建联合外观分布 p I c S p_{\mathcal{I}_\mathcal{cS}} pIcS(即 S ˉ c \bar{S}_c Sˉc的分布)。该分布的横纵轴分别为实时数据和先验模型中的(量化)外观,如图4.7所示,并基于此计算归一化信息距离。需要注意的是,第5.3节详细说明了如何具体构建每个 p I S p_{\mathcal{IS}} pIS以实现解析导数的计算。


图4.7 联合外观分布的结构。对于每个点 q ∈ S ˉ q\in\bar{S} qSˉ,我们有其外观两种观测值:来自先验的 I S ( q ) \mathcal{I}_\mathcal{S}(q) IS(q)和来自在位姿 G R , W G_{R,W} GR,W下的实时图像 I ( x ) \mathcal{I}(x) I(x)。通过将这两种观测值视为来自不同随机变量的同步观测,我们可以使用归一化直方图构建离散联合分布。

尽管表面来看, p I S p_{\mathcal{IS}} pIS中似乎未直接利用3D信息,但是事实并非如此。点 q q q的3D位置和位姿 G R , W G_{R,W} GR,W结合相机模型共同决定了该点在实时图像中的重投影坐标 x x x,因此它的外观也被影响。因此 p I S p_{\mathcal{IS}} pIS本质上是3D场景信息的一个函数,因为它定义了构建 p I S p_{\mathcal{IS}} pIS的样本。

4.4.1 色彩空间维度的选择

尽管式(3.4)中的通用最小化框架假设了一个通用的 m 通道外观空间,但实际构建 m>1 时的联合外观分布(joint appearance distribution)​并不现实。​这是因为,对于较大的 m 值,即使采用粗粒度量化,联合分布中的单元格数量仍会变得极其庞大,这在实际应用中会导致分布极度稀疏,从而对 ​NID 等熵度量的敏感性与实用性产生负面影响。​由于 NID 是一种度量,从概念上讲,​对各通道单独计算的 NID 进行求和是数学意义明确的。因此,​我们可以将式(3.4)中的目标函数替换为 NID ( X , Y ) \text{NID}(X, Y) NID(X,Y),从而形成式(4.26)所示的候选最小化问题:
尽管此处的图示仅为示意性质,但在第4.4.3节中,我们将展示基于真实数据构建的典型 p I S p_{\mathcal{IS}} pIS

arg ⁡ min ⁡ G R , W ∑ c Cameras ∑ m Channels N I D ( I ( S ‾ ) , I S ( S ‾ ) ) = arg ⁡ min ⁡ G R , W ∑ c Cameras ∑ m Channels N I D ( I ( x ) , I S ( q ) ) ∣ ∀ q ∈ S ‾ ) : R 2 × ( ∣ S ‾ ∣ × m ) ↦ R 1 (4.26) \arg\min_{G_{R,W}}\sum_{c}^{\text{Cameras}} \sum_{m}^{\text{Channels}} \mathrm{NID}\left(\mathcal{I}(\overline{\mathbf{S}}),\mathcal{I}_{S}(\overline{\mathbf{S}})\right)\\ =\arg\min_{G_{R,W}}\sum_{c}^{\text{Cameras}} \sum_{m}^{\text{Channels}}\mathrm{NID}\left(\mathcal{I}(x),\mathcal{I}_{S}(q)\right)\mid \forall \mathbf{q} \in \overline{\mathbf{S}} ): \mathbb{R}^{2 \times (|\overline{\mathbf{S}}| \times m) } \mapsto \mathbb{R}^{1}\tag{4.26} argGR,WmincCamerasmChannelsNID(I(S),IS(S))=argGR,WmincCamerasmChannelsNID(I(x),IS(q))qS):R2×(S×m)R1(4.26)

然而,尽管式(4.26)适用于通用的m通道颜色空间(例如:RGB对应 m = 3 m=3 m=3),但在本研究中,我们仅关注单通道(m=1)的情况,尽管采用不同(单通道)颜色空间。这是因为我们观察到,与灰度空间相比,使用式4.27处理RGB颜色空间时收益甚微,而额外计算成本却显著增加。因此我们提出的单通道图像假设下的最小化问题可化简为式(4.27):
arg ⁡ min ⁡ G R , W ∑ c C a m e r a s N I D ( I c ( S ‾ c ) , I S ( S ‾ c ) ) = arg ⁡ min ⁡ G R , W ∑ c C a m e r a s N I D ( I c ( x ) , I S ( q ) ∣ ∀ q ∈ S ‾ c ) (4.27) \begin{aligned} & \arg\min_{G_{R,W}}\sum_c^\mathrm{Cameras}\mathrm{NID}\left(\mathcal{I}_c(\overline{\mathcal{S}}_c),\mathcal{I}_\mathcal{S}(\overline{\mathcal{S}}_c)\right) \\ & =\arg\min_{G_{R,W}}\sum_c^\mathrm{Cameras}\mathrm{NID}\left(\mathcal{I}_c(\boldsymbol{x}),\mathcal{I}_\mathcal{S}(\boldsymbol{q})|\forall\boldsymbol{q}\in\overline{\mathcal{S}}_c\right) \end{aligned}\tag{4.27} argGR,WmincCamerasNID(Ic(Sc),IS(Sc))=argGR,WmincCamerasNID(Ic(x),IS(q)∣∀qSc)(4.27)
在严格且直观的意义上,该优化的极小值对应的位姿 G R , W G_{R,W} GR,W是最大化先验与实时图像与实时图像中场景外观信息之间的相似性,这与我们的预期一致。此外,我们继承了NID的优秀性质,包括鲁棒性及对量化颜色空间值的独立性——这一点至关重要,因为我们并没有假设先验和实时图像由相同相机或者在相似条件下采集。

4.4.2 组合多个相机的NID

式(4.27)中针对多相机的NID求和操作​(假设各相机具有互补视野,因此使用 S \mathcal{S} S的不同子集 S ˉ c \mathcal{\bar S_c} Sˉc 进行计算)​的合理性条件是:​所有相机的 p I c p_{\mathcal{I_c}} pIc定义的空间必须一致。若满足此条件,则每台相机的 p I c S ˉ c p_{\mathcal{I_c \bar{S}_c}} pIcSˉc可视为场景完整联合分布 p I S p_{\mathcal{IS}} pIS的局部估计。

4.4.3 结果

基于前文提出的问题形式化框架,我们现展示在真实数据集上的初步实验结果,以验证该框架的优化曲面形态与鲁棒性。​实验数据集采用文献[106]中的EPFL Herz-Jesu-P8 Multi-view 数据集,其包含​测绘激光雷达生成的密集点云及八张已配准的建筑入口图像​(如图4.8所示)。​点云的外观先验模型通过计算每个点在所有可见图像中的平均灰度强度​(由标准RGB转灰度公式获得)构建。​本节所有实验均选取图4.8中红色高亮的单张图像作为“实时图像” I \mathcal I I

在这里插入图片描述
图4.8:EPFL Herz-Jesu-P8 Multi-view Stereo 数据集。基准雷达点云下采样至 2 ⋅ 1 0 5 2\cdot10^5 2105个点(原始数据含 18 × 1 0 6 18\times 10^6 18×106个点),使用所有可见图像的平均外观进行着色。所有相机在数据集中的捕获位姿通过绿色视锥体表示,​而红色视锥体标注的位姿对应实时图像 I \mathcal I I,该图像将作为第4.4.3节所有实验的输入数据,即需要通过我们的框架估计其相对于先验点云 S \mathcal S S 的相对位姿。第4.4.3章节展示的结果并非通过实际优化获得,相反,对NID进行真实位姿 S E ( 3 ) \mathbb{SE}(3) SE(3)的扰动,以证明NID的鲁棒性和收敛域的几何特性。这反映了我们的方法将如何通过初始位姿(来自之前的迭代或者外部源)进行工作。

图4.9与图4.10分别展示了围绕真实位姿的平移(XYZ)与旋转(横滚、俯仰、偏航)参数空间中,基于规则采样网格计算的归一化信息距离(NID)的等值面体积。每个图的右侧显示了沿各轴独立位移时的NID及其对应的解析梯度(主等值面图中以黑线标出)。需注意,​如何解算解析梯度是第5章的主题。​从图4.9和图4.10中需注意的关键点是:NID表现的非常好,有一个清晰的最小值,这表明使用前面提出的问题形式进行优化可以正确估计位姿。尽管我们将在第5章讨论NID解析梯度的更多细节,但在此处提出,这些梯度形态很好,适用于优化过程。

在这里插入图片描述
图4.9:图4.8中展示了EPFL数据集中,围绕真实相机位姿沿XYZ轴平移偏移的归一化信息距离等值面代价体积。NID计算基于: △ G ⋅ G R , W ∗ \triangle G\cdot G_{R,W}^* GGR,W,其中, G R , W ∗ G_{R,W}^* GR,W是图4.8中红色视椎体对应的真实相机位姿,以及 △ G \triangle G G是一个变换偏差。 △ G \triangle G G的旋转分量保持为0,平移分量在 ± 1 \pm 1 ±1范围内均匀采样生成左侧的等值面代价体积。等值面采用逆Alpha混合渲染(代价越高透明度越高)以便于可视化。右侧子图展示了NID沿等值代价面体积中各轴对齐的黑色采样线(对应主图中的黑线)的演变。子图中的蓝色曲线表示沿各轴计算的NID解析梯度,其评估是第5章的主题。

在这里插入图片描述
图4.10:图4.8中展示了EPFL数据集中,围绕真实相机位姿沿横滚、俯仰和偏航偏移的归一化信息距离等值面代价体积。NID计算基于: △ G ⋅ G R , W ∗ \triangle G\cdot G_{R,W}^* GGR,W,其中, G R , W ∗ G_{R,W}^* GR,W是图4.8中红色视椎体对应的真实相机位姿,以及 △ G \triangle G G是一个变换偏差。 △ G \triangle G G的XYZ平移分量保持为0,旋转分量在 ± 15 ° \pm 15\degree ±15°范围内均匀采样生成左侧的等值面代价体积。等值面采用逆Alpha混合渲染(代价越高透明度越高)以便于可视化。右侧子图展示了NID沿等值代价面体积中各轴对齐的黑色采样线(对应主图中的黑线)的演变。子图中的蓝色曲线表示沿各轴计算的NID解析梯度,其评估是第5章的主题。

由于EPFL Herz-Jesu-P8数据集的图像均在同一阴天条件下拍摄,使用真实位姿时,实时图像中的可视点的外观与先验的外观非常相似。为验证NID的固有鲁棒性是否转移到位姿估计框架中,我们对原始图像进行以下修改(保持先验外观一致):光照调整(图4.12)、添加遮挡(图4.13)、色彩空间变换(4.14)。针对每种情况,我们给出来我们所说的轴采样线(即z真实位姿沿欧拉角参数化轴独立偏移时的NID),如图4.9和图4.10右侧图所示。

在这里插入图片描述
图4.11:原始(未修改)图像轴采样线。使用原始图像,沿着每个轴绕真实位姿偏移评估NID。左图下侧是联合外观分布:左图 p I S p_\mathcal{IS} pIS是yaw偏移 20 ° 20\degree 20°,其它轴偏移量为零。右图 p I S p_{\mathcal{IS}} pIS是基准位姿,即所有轴偏移量均为零。

在这里插入图片描述
图4.12:图像右侧人为增亮的轴采样线。使用了通过简单缩放使得右半部分明显变量的图像评估真实位姿沿各轴独立偏移的NID。在修改后的图像左侧是联合外观分布:左图 p I S p_\mathcal{IS} pIS是yaw偏移 20 ° 20\degree 20°,其它轴偏移量为零。右图 p I S p_{\mathcal{IS}} pIS是基准位姿,即所有轴偏移量均为零。

在这里插入图片描述
图4.13:图像人为增加先验中先前没有的遮挡的轴采样线。使用了人为增加先验模型外观之前没有遮挡的图像评估真实位姿沿各轴独立偏移的NID。修改后的图像左侧是联合外观分布:左图 p I S p_\mathcal{IS} pIS是yaw偏移 20 ° 20\degree 20°,其它轴偏移量为零。右图 p I S p_{\mathcal{IS}} pIS是基准位姿,即所有轴偏移量均为零。

图4.11展示了原始(未修改)图像的轴采样线,左侧为平移,右侧为旋转。该图实际等价于图4.9与图4.10右侧子图的紧凑形式。它们应作为图4.12到图4.14的基准对比基线。需注意:真实位置对应曲线水平中心点(偏移量为零),即理论最小值位置。

在图4.12中,图像的右侧明显变亮,图4.13中,图像中增加了先前不存在的人造纹理。在图4.14中,色彩空间被非线性变换为光照不变空间。所有情况下,尽管最小处NID的值高于图4.11的未修改的情况,但曲线形状总体保持一致(尤其在图4.12和图4.13中)。所有情况下最小值仍然清晰且位于真实位姿(零偏移)处,这证明NID的鲁棒性确实是转移到位姿估计框架,这是方法的一个核心优势。

在图4.11至图4.14的左侧,修改后的图像下方展示了以下两种场景的联合外观分布 p I S p_{\mathcal{IS}} pIS:​左图:仅施加 ​最大20°偏航(yaw)偏移,其他轴偏移量为零;右图:所有轴偏移量均为零(即基准位姿)。两者的颜色映射均设置为零值对应白色,以突出分布的弥散程度。​这些图表的关键结论如下:正如预期,​基准位姿下的 p I S p_{\mathcal{IS}} pIS特别“尖峰”​​(即均匀性更低);在基准位姿下, p I S p_{\mathcal{IS}} pIS并非必须为对角线分布​。

最后,我们通过一个具体案例展示NID相对于信息变差(VI)的优越性​(原因参见第4.2.2节讨论的等价性问题)。​图4.15展示了一个相机直视笔直道路的场景及其对应的场景先验。​图4.15c中,红色曲线表示VI随俯仰偏移的变化,蓝色曲线表示NID的变化。​需注意,尽管在基准位姿附近的极小值区域两者形态相似,​但随着俯仰偏移增大,VI可能降至基准值以下,暗示匹配效果更优。相比之下,NID持续上升至显著高于基准值的稳态。​这一现象的原因是:当相机俯仰时,更多点云投影至天空或路面区域。无论哪种情况,图像中的边缘外观分布 ( p I ) (p_{\mathcal{I}}) (pI) 会趋于集中化,从而降低其熵。​尽管互信息也随之下降,但VI仍可能低于基准值——这正是第4.2.2节所述的失效案例。

在这里插入图片描述
图4.15:信息变差(VI)与归一化信息距离(NID)的信息内容偏差效应对比。​如第4.2.2节所述,VI受总信息量的偏差影响,因而存在图4.6强调的等价性问题。​在我们的问题形式化框架中,这一缺陷具有重要实际影响——由于天空通常过曝(反映我们对场景而非天空的关注),当真实相机位姿因向下俯仰角偏移(即 △ G R ~ , R ⋅ G R , W \triangle G_{\tilde{R } ,R}\cdot G_{R,W} GR~,RGR,W ,其中 △ G R ~ , R \triangle G_{\tilde{R },R} GR~,R 参数化俯仰偏移量,根据变换定义(第2.1节)及变换方向,该偏移量取正值)时,大部分场景(图4.15a)将被投影至实时图像的天空区域(图4.15b)。因此,图像强度分布 p I p_{\mathcal {I}} pI会由包含(白色)天空强度的分箱主导,导致其整体熵值降低,如图4.15d所示。洋红色PDF对应正确的相机位姿 G R , W G_{R,W} GR,W,绿色对应偏移相机位姿 △ G R ~ , R ⋅ G R , W \triangle G_{\tilde{R } ,R}\cdot G_{R,W} GR~,RGR,W。这正是图4.6所示安替的具体表现。图4.15c展示了不同俯仰偏移量下VI和NID的曲线形态。显然,VI并非良好度量标准,因为大幅俯仰误差会导致其值低于基准位姿时的值。相比之下,NID的曲线行为更加合理。

4.5 结论

在本章中,我们首先回顾了熵的基本概念以及信息论领域的相关量。然后我们讨论了熵度量的度量空间的概念,它们的含义以及为什么它们有用。我们详细回顾了两个重要的信息度量,即信息变差和归一化信息距离,显示了它们之间的关系,以及为什么尽管两者都是度量,但是NID更加优越。最后我们展示了如何将NID作为第3章引入的问题公式的目标函数,并且展示了一些示例结果,证明在一个真实数据集上得到了理想的性质。