计算机图形学中MVP变换的理论推导-EW帮帮网

计算机图形学中MVP变换的理论推导

课程地址：Computing the Pixel Coordinates of a 3D Point

知识铺垫：矩阵的真实内涵

矩阵的每一列/行（左乘和右乘的区别）代表了新坐标系的基向量在原基向量构成的坐标系中的坐标，这些新基向量（单位轴）构成新坐标系（用矩阵表示）

如果此时用这个矩阵乘一个向量，则向量中每个元素的含义是新坐标系中每个轴的对应分量，三个轴分量线性组合得到一个新坐标，这个坐标就是用这个新坐标系描述的
例如：矩阵A乘以向量d得到一个新向量f，矩阵A中的每一列代表用原坐标系（标准正交基）中的新向量作为新坐标系的基向量，向量d表示新坐标系中三个轴的对应分量，这些分量线性组合得到新向量f,整个过程可以描述为矩阵A将向量d变换到向量f

总之，矩阵的每一列或行元素代表在原坐标系 $(1, 0, 0) 、 (0, 1, 0) 、 (0, 0, 1)$ 中找三个正交向量作为新基向量（坐标系的轴），之后矩阵乘别的向量就是用这个新基向量线性组合得到新向量

世界坐标系

世界坐标系描述了一切，包括相机的位置、物体的顶点等等，为了能够让我们看见世界坐标系中的物体，我们就需要将世界坐标系中的顶点转到相机视角下，这样才能让我们看到某个视角下的物体
我们假设世界坐标系为identity matrix,即
$\begin{pmatrix} 1,0,0\\ 0,1,0\\ 0,0,1 \end{pmatrix}$
我们可以定义一个模型，比如这里的立方体，我可以假想一个坐标系（原点(0,0,0)+三个互相垂直的轴），我可以在这个假想的坐标系中直接写出立方体的每个顶点的坐标
$p_1=[-0.5, -0.5, 0.5]\\ p_2=[-0.5, 0.5, 0.5]\\ p_3=[-0.5, 0.5, -0.5]\\ ~\\ ……$
其实这些坐标都是我们在想象的一个空间坐标系（并非真的用代码实现了一个坐标系）内描述的这些顶点，该坐标系原点为 $[0, 0, 0]$ ，三个轴互相垂直

重点！！！务必理解，我们并非明确地变换坐标系；而是平移、缩放和旋转对象（顶点）完成所谓坐标系的转换。一个 4x4 矩阵表示这些变换，并且该矩阵可以被视为一个坐标系，也就是说我们对这些顶点乘以一个变换矩阵就相当于换了一个坐标系

世界坐标系到相机坐标系的变换（相机外参矩阵）

相机外参矩阵的结构

每个相机的初始位置其实是与我们想象的“世界坐标系”重合的，我们需要将这些定义在世界坐标系的顶点乘以一个矩阵（本质是变换，看作一个新坐标系）转换到用其他坐标系表示，这个矩阵就是world_to_camera矩阵（相机外参矩阵），这个矩阵的构成：

齐次坐标：在三维空间中，为了能用矩阵同时表示旋转和平移，引入四维齐次坐标，将三维点 $(x, y, z)$ 表示为 $(x, y, z, 1)$
矩阵结构：4×4 矩阵可分为两部分：
左上 3×3 子矩阵 𝑅：表示旋转，用于对齐世界坐标系的轴到相机坐标系的轴（即相机的方向基向量）
右上 3×1 向量 𝑡：表示平移，用于将世界原点“搬到”相机原点的位置（注意是逆变换，所以常带负号）

将旋转和平移整合到一个矩阵中就是这里所说的相机外参矩阵M

相机外参矩阵中的平移向量

相机外参矩阵中的旋转矩阵

知识铺垫：
旋转一共三个自由度，绕 $x, y, z$ 旋转，如果分别绕x、y、z轴旋转可以得到三个方向上的旋转矩阵 $R_x、R_y、R_z$ ，而相机外参矩阵中的旋转矩阵是这三者的乘积
$R=R_x*R_y*R_z$
下图来自：TEK5030 - Computer Vision

推导 $R_x、R_y、R_z$ ，顶点 $P_w$ 原先用坐标系 $X_wY_wZ_w$ 表示，现在用新坐标系 $X_cY_cZ_c$ 表示，也就是说顶点 $P_w$ 原先用坐标系 $X_wY_wZ_w$ 的三个基向量线性组合而成，现在想要用新坐标系 $X_cY_cZ_c$ 基向量线性组合表示顶点 $P_w$ 重新命名为 $P_c$
下图来自：计算机视觉之— 相机内参与外参

相机外参矩阵中的旋转矩阵是三个单纯绕轴旋转矩阵的乘积
$R=R_x*R_y*R_z$
先对世界坐标系描述的顶点做旋转R，之后再进行平移 t 得到了用新坐标系（相机坐标系）描述的顶点

向量与点的区别
(1)向量（如基向量）只关心起点到终点的方向与长度，通常被视为从原点出发的箭头；它们本身不附带“起点位置”的信息。

(2)点才有“坐标位置”，平移才会改变它。

旋转（R）：将世界坐标系的向量或点围绕原点旋转到相机坐标系方向。
平移（t）：将旋转后的点平移到相机中心位置。
向量只经过旋转，不经历步骤平移；
而点则经历旋转+平移，最终同时拥有新的方向和位置

世界坐标系与相机坐标系互转的应用场景

（1）从相机坐标系转到世界坐标系（相机外参矩阵的逆c2w）应用场景
在多视图立体重建或 SLAM（同步定位与建图）等应用中，每台相机先以其自身坐标系表示重建出的三维点,为了融合这些不同相机获得的数据，需要将它们变换到同一世界坐标系。
将来自多台相机或多时刻的点统一到全球参照系，用于点云拼接、稠密建图和地图创建等

三维模型点未知，仅知道模型在相机坐标系下点的坐标（模型的一部分点），这时候我们想要得到三维模型的所有点，就需要把每帧相机坐标系下的点都统一转换到世界坐标系下

$P_w=P_c*M_{c2w}$
$P_w.x=P_c.x*M_{00}+P_c.y*M_{10}+P_c.z*M_{20}+M_{30}\\ ~\\ P_w.y=P_c.x*M_{01}+P_c.y*M_{11}+P_c.z*M_{21}+M_{31}\\ ~\\ P_w.z=P_c.x*M_{02}+P_c.y*M_{12}+P_c.z*M_{22}+M_{32}$

（2）从世界坐标系转到相机坐标系（相机外参矩阵w2c）应用场景

在渲染、投影或相机标定（Camera Calibration）过程中，需要将已知的三维模型点映射到相机坐标系下，以便进一步投影到图像平面

$M_{w2c}=M_{c2w}^{-1}\\ ~\\ P_c=P_w*M_{w2c}$
$P_c.x=P_w.x*M_{00}+P_w.y*M_{10}+P_w.z*M_{20}+M_{30}\\ ~\\ P_c.y=P_w.x*M_{01}+P_w.y*M_{11}+P_w.z*M_{21}+M_{31}\\ ~\\ P_c.z=P_w.x*M_{02}+P_w.y*M_{12}+P_w.z*M_{22}+M_{32}$