NLP预训练模型

系列文章

摘要中说到，当前的NLP预训练方法，仍需要下游任务的微调，这需要很多的数据样本，而人类往往可以通过少样本学习完成新的语言任务。而GPT-3可以做少样本学习，我们将语言模型扩大原来的非稀疏模型的10倍，GPT-3这样一个自回归语言模型有1750 亿的参数。我们在few-shot setting下测试模型，所有任务都不进行微调和参数更新，只通过文本和模型交互。GPT-3在很多任务上取得良好性能，包括翻译，问答，完型填空，以及一些需要动态推理或域适应的任务，如词语解读(unscrambling words)。最后，我们发现GPT-3能生成出让人难辨真假的新闻文章。(有点通过图灵测试的味道了)

2. Introduction

NLP预训练语言表示的历史：首先是单层表示(word2vec)，然后是使用RNN的多层表示（但仍旧是任务相关的架构），再然后是预训练的RNN或Transformer(直接fine-tuned，不需要任务相关的架构)。最后一个范式取得了很多NLP任务的进展，如阅读理解，问答，文本蕴含等。但是这个范式仍然有缺点，即虽然架构是任务无关的，但是数据集是任务相关的，且需要任务相关的fine-tuning。

移除这些限制是非常需要的，有以下几个原因：

1. 首先从实用角度，每个新任务都要大量标记样本的数据集限制了语言模型的可用性。

2. 其次，利用训练数据中的虚假相关性的可能性从根本上随着模型的表达能力和训练分布的狭窄而增加。这会给预训练+微调的范式带来问题，模型被设计的很大，在预训练期间吸收信息，但随后在非常狭窄的任务分布上进行微调。

3. 人类不需要大的监督数据集来学习大多数语言任务。

解决这些问题的一个潜在途径是元学习(有时被称为zero-shot transfer)，在语言模型的背景下，这意味着模型在训练时发展了广泛的技能和模式识别能力，然后在推理时使用这些能力快速适应或识别所需的任务。最近的工作尝试使用语境学习(in-context learning)来实现这个，即使用预训练语言模型的文本输入作为一种任务说明的形式，模型以自然语言指示为条件(conditioned on a natural language instruction)，或者少量的任务样例，期望模型以预测接下来的文本的方式来完成之后的实例。尽管这种方法有一些希望，但是和微调相比还是差很多，显然元学习还需要大量的改进，才能成为解决语言任务切实可行的方法。

语言模型元学习：语境学习描述的是内循环。

语言模型的另一个趋势是transformer语言模型容量的不断增大，从1亿(GPT)参数到3亿(BERT)，到15亿(GPT-2)，到80亿(Megatron-LM)，到110亿(T5)，到170亿(Turing-NLG)。每一次增长都带来了文本合成性能的提升，并且log loss没有平滑的趋势，因为语境学习需要模型参数内吸收许多技能和任务，因此语境学习能力可能在随着规模增长变的更强是合理的。

因此，这篇文章我们训练一个1750亿参数的自回归语言模型（GPT-3）来验证这一假设，并测试它的语境学习（in-conext leanrning）能力。具体来说，我们在超过24个NLP数据上评估了GPT-3，以及几个用于测试快速适应任务的能力的新任务。

每个任务，GPT-3都在3中设置下评估：