定义
自监督学习是一种预训练过程,能够让神经网络以监督学习方式学习大规模无标签数据集。
VS 迁移学习
迁移学习任务是先在一种任务上预训练模型,然后讲预训练好的模型作为训练起点,再应用于第二种任务继续训练。例如,想训练一个图像分类器对鸟分类,使用迁移学习方式,会在ImageNet数据集(一般指其子集ILSVRC2012,ILSVRC2012包含1000个类别,每个分类约有1000张图片,训练集共120万张图片)上先预训练一个卷积神经网络,然后基于该预训练模型继续训练,训练目标是一个更小、更具体的网络。下图介绍了使用传统迁移学习技术进行预训练的流程。
使用无标签数据
通过自监督学习,能够充分利用无标签数据。基于Transformer架构的大语言模型或视觉模型,就是通过自监督学习进行预训练,从而达到良好效果。而对于只有两三层的感知机这样小型神经网络来说,自监督学习是既不使用也不必要的。同样,自监督学习对于传统机器学习中的非参数化模型也不实用,例如基于树的随机森林和梯度增强算法。
自预测与对比自监督学习
自监督学习主要分为两大类:自预测与对比自监督学习。
自预测
在自预测中,会更改或掩蔽输入的一部分内容,训练模型来重建原始的输入内容,如Masked AutoEncoders.
在自然语言处理(NLP)中,可以通过随机遮盖(Mask)句子中的部分词或子词,让模型预测被遮盖的内容来训练语言模型。例如,BERT(Bidirectional Encoder Representations from Transformers)采用以下策略:
随机遮盖:输入句子中15%的Token被替换为[MASK]符号。
部分替换:在这15%的Token中,并非全部直接替换为[MASK],而是:
80%概率替换为[MASK](主要学习目标),
10%概率替换为随机词(增加鲁棒性),
10%概率保留原词(缓解预训练-微调差异)。
双向上下文:模型利用所有未被遮盖的词(左右双向上下文)预测被遮盖的内容。
对比自监督学习
希望训练神经网络学习一个嵌入空间,其中,相似的输入彼此接近,不相似的输入则相距很远。
对比自监督学习还有许多变体,可以大致分为样本对比和维度对比两类。样本对比更关心如何增大或减小训练样本组成的嵌入向量之间的距离。维度对比更关注如何使训练样本组生成的嵌入向量中一部分变量距离更近,剩余变量的距离更远。
参考文献
[1] 塞巴斯蒂安·拉施卡, 大模型技术30讲, 人民邮电出版社(北京), 2025, P6-P11.