3D点云的深度学习网络分类(按照输入数据格式分类)

发布于:2025-03-26 ⋅ 阅读:(30) ⋅ 点赞:(0)

1. 基于体素(Voxel-based)的方法

将点云数据量化为规则的3D体素网格,并使用3D卷积神经网络(3D CNN)进行特征提取和学习。

  • 代表模型:
    • VoxNet (2015):早期基于体素的3D CNN模型。
    • 3D ShapeNets (2015):使用深度置信网络(DBN)进行3D形状学习。
    • 3D U-Net (2017):适用于3D医学图像和语义分割的U-Net变体。
    • SparseConvNet (2018):优化稀疏3D CNN计算,提高计算效率。
    • MinkowskiNet (2019):使用稀疏3D CNN进行高效计算。

优点: 可直接利用CNN的强大特征提取能力,适用于规则化结构。
缺点: 体素化会导致信息丢失,且计算开销较大,特别是高分辨率点云。


2. 基于点(Point-based)的方法

直接在点云上操作,避免体素化造成的信息损失,通常采用MLP(多层感知机)或自注意力机制进行特征提取。

  • 代表模型:
    • PointNet (2017):使用MLP对每个点进行特征提取,并用全局池化实现不变性。
    • PointNet++ (2017):引入局部区域聚合,提高对不同尺度点云的建模能力。
    • DGCNN (2019):基于动态邻域图卷积,对点的局部关系建模。
    • Point Transformer (2021):基于Transformer架构进行点云特征提取。

优点: 无需网格化或体素化,直接处理原始点云,保留更多几何信息。
缺点: 计算复杂度较高,难以捕捉远程关系。


3. 基于图(Graph-based)的方法

将点云表示为图结构,使用图神经网络(GNN)进行学习,适用于非均匀密度的点云数据。

  • 代表模型:
    • GCN (2016):基础图卷积神经网络。
    • GAT (2017):基于注意力机制的图神经网络。
    • DGCNN (2019):结合KNN图构造动态邻域的图神经网络。
    • MP-GNN (2020):多尺度图网络,提高对复杂拓扑结构的建模能力。

优点: 能够建模局部和全局拓扑信息,适用于稀疏和不规则点云数据。
缺点: 图的构造和计算复杂度较高。


4. 基于投影(Projection-based)的方法

将3D点云投影到2D平面(如深度图、鸟瞰图、多视角投影),然后使用2D CNN进行处理。

  • 代表模型:
    • MVCNN (2015):使用多个视角图像进行特征融合。
    • Frustum PointNet (2018):结合2D目标检测进行3D目标识别。
    • BEV-Net (2020):采用鸟瞰图(BEV, Bird’s Eye View)进行检测。

优点: 计算效率较高,能利用成熟的2D CNN架构。
缺点: 可能会丢失深度信息或导致遮挡问题。


5. 基于Transformer的方法

借鉴Transformer架构的自注意力机制,处理长距离依赖关系,提高点云理解能力。

  • 代表模型:
    • Point Transformer (2021):直接应用Transformer到点云。
    • PCT (Point Cloud Transformer, 2021):改进Transformer用于点云处理。
    • PT (Point-BERT, 2022):基于BERT的点云预训练模型。

优点: 具有强大的特征表达能力,能够建模全局信息。
缺点: 计算复杂度较高,需要优化以适应大规模点云数据。


总结

方法类别 优点 缺点 代表模型
体素化 (Voxel-based) 适用于规则结构,支持3D CNN 计算量大,信息损失 VoxNet, SparseConvNet, MinkowskiNet
基于点 (Point-based) 直接处理点云,保留原始信息 计算复杂度高 PointNet, PointNet++, DGCNN, Point Transformer
基于图 (Graph-based) 适用于稀疏点云,建模局部/全局关系 图构造计算复杂 GCN, GAT, DGCNN, MP-GNN
投影 (Projection-based) 计算高效,适配2D CNN 深度信息损失 MVCNN, Frustum PointNet, BEV-Net
Transformer 强大特征提取能力,建模全局关系 计算量大,需优化 Point Transformer, PCT, Point-BERT