阅读总结
一、研究背景与挑战
问题定义
- 任务:单视图3D重建(从单张RGB图像预测物体3D形状)
- 痛点:
- 监督方法(如Pix2Vox)依赖大量3D标注数据(图像-体素对),标注成本高昂。
- 单视图重建是病态问题(单张2D图像对应多种3D形状解)。
- 现有局限:
- 半监督学习(SSL)在分类/检测中有效,但未应用于3D重建。
- 直接迁移SSL方法(如MeanTeacher)效果差:
- 3D伪标签噪声大(图1b)
- 缺乏形状先验导致重建结果不自然(如表面断裂)
二、核心方法:SSP3D框架
整体架构
- 两阶段训练:
- Warm-up阶段:用少量标注数据(1%~20%)预训练教师模型。
- 互学习阶段:教师生成伪标签指导学生模型,学生通过强数据增强学习,教师通过EMA更新权重。
关键创新模块
1. 原型注意力模块(Prototype Attentive Module, PAM)
- 动机:解决标注数据不足时的形状先验学习问题。
- 实现:
- 原型生成:对标注数据的3D形状特征聚类(K-Means),得到类别原型(如椅子类3个典型形状)。
- 注意力融合:
- 图像特征(Query)← 2D编码器(ResNet-50)
- 原型特征(Key/Value)← 3D编码器(处理原型体素)
- 多头注意力(MHA)计算:
- 输出:融合原型信息的先验特征 → 输入形状解码器。
- 作用:显式注入类别先验,提升遮挡/噪声图像的鲁棒性。
2. 形状自然性模块(Shape Naturalness Module, SNM)
- 动机:评估伪标签质量并提升形状真实性。
- 双功能设计:
- 判别器:区分预测形状与真实形状,通过对抗损失优化生成器:
- 置信度评分器:输出Sigmoid值作为伪标签质量得分(高=真实性强),用于加权无监督损失。
- 判别器:区分预测形状与真实形状,通过对抗损失优化生成器:
三、训练策略
1. Warm-up阶段
- 损失函数:
2. Teacher-Student互学习
- 教师生成伪标签:
- 弱增强图像 → 教师模型 → 输出体素 $\hat{y}$ → 二值化(阈值
)。
- 弱增强图像 → 教师模型 → 输出体素 $\hat{y}$ → 二值化(阈值
- 学生训练:
- 监督损失:标注数据的BCE损失。
- 无监督损失:伪标签的加权平方L2损失(Brier Score):
:SNM输出的置信度(0~1)。
- 教师更新:EMA平滑学生权重 →