问题:现有的研究主要通过对多个教师预测进行平均或使用其他无标签策略将其组合来整合来自不同来源的知识,这可能在低质量教师预测的情况下误导学生。
方法简介:1、提出了置信度感知的多教师知识蒸馏(CA-MKD),该方法借助于真实标签,自适 应地为每个教师预测分配样本可靠性,并为这些教师预测分配大权重。
2、CA-MKD结合了中间层的特征,以稳定知识转移过程。
1、模型方法
![]()
CA-MKD框架
a、将
表示为标记训练集,N是样本数,K是教师数。
是最后一个网络块的输出。
b、将
表示为logits输出,其中C是类别标签。
最终的模型预测是通过具有温度
的软最大函数
获得的。
1.1教师预测的损失函数
为了有效地聚合多个教师的预测分布,通过计算教师预测和真实标签之间的交叉熵损失,分配反映其样本置信度的不同权重
其中
表示第k个教师。
越小对应于
越大。
教师的总体预测如下并用计算出的权重进行聚合:
预测更接近真实标签的教师将被分配更大的权重
,因为其有足够的信心做出准确判断,以正确指导。相反,如果我们简单地通过计算教师预测的熵来获得权重,则无论最高概率类别是否正确。
1.2中级教师特征的损失
除KD损失外,受FitNets的启发认为中间层也有利于学习结构知识,因此将方法扩展到中间层以挖掘更多信息。中间特征匹配的计算如下所示:
其中
是第k个教师的最终分类器。
1、
是最后一个学生特征向量,即hS=AvgPooling(
)。
2、
通过将
传递给每个教师分类器来获得。
3、
的计算类似于
的计算。
为了稳定知识转移过程,将学生设计为更专注于模仿具有相似特征空间的教师,
实际上用作表示教师分类器在学生特征空间中的可辨别性的相似性度量。消融研究表明,利用
而不是
在中间层进行知识聚合更有效。
1、r(·)是用于对齐学生和教师特征维度的函数。
2、
损失函数用作中间特征的距离度量。
3、特征对之间的总体训练损失将由
汇总。
1.3总损失函数
除了上述两个损失外,还计算了具有真实标签的规则交叉熵:
CA-MKD的总体损失函数总结如下:
其中α和β是超参数,用于平衡知识蒸馏和标准交叉熵损失的影响。
2、总结
1、介绍了多教师知识蒸馏的预测和中间特征的置信感知机制。
2、教师的置信度是基于他们的预测或特征与每个训练样本的可靠性识别的基本事实标签之间的相似度来计算的。
3、在标签的指导下,我们的技术有效地整合了来自多个教师的不同知识,用于学生培训。