GPT-2的功能就是预测文字。OpenAI 的研究员为了实验研究,从网上收集了40GB大的数据集(名为WebText),对GPT-2进行了训练。就存储大小而言,训练的GPT-2中规模最小的也需500MB空间才能存储其所有参数,最大的所需空间是其13倍,那也就是说存储空间约6GB。
模型结构
GPT-2是通过transformer解码器模块构建的,模块堆得尽可能高,输入海量的训练文本,再进行大量运算。如下图,小规模的 GPT-2 模型堆叠了 12 层,中等规模的是24 层,大规模的是36 层,还有一个特大规模的堆叠了48 层。此处使用的是48层。
GPT-2与BERT的区别
1.GPT-2是通过transformer解码器模块构建的,而BERT是通过transformer的编码器模块构建的。
2.GPT2会像传统的语言模型一样,每次输出一个词。每次生成词(token)后,将其添加到输入序列。新的序列就会作为模型下一步的输入内容。该理念称为“自回归(auto-regression)”,也是促成RNN高效的理念之一。GPT2以及后来的一些模型比如TransformerXL和XLNet本质上讲都是自回归模型。但BERT是个例外,没有自回归。