Fine-tuning Pre-Trained Transformer Language Models to Distantly Supervised Relation Extraction

用于远程监督关系抽取的微调预训练transformer语言模型

论文源地址：https://aclanthology.org/P19-1134/

摘要

远程监督关系抽取被广泛应用于从文本中抽取关系事实，但是备受噪声标签的影响。目前的关系抽取方法尝试通过多实例学习和提供支持语言和上下文信息来减弱噪声，从而更有效的引导关系分类。虽然取得了最先进的结果，但是我们观察到这些模型倾向于高精度地识别一个有限的关系数据集，而忽略了长尾中的那些关系。为了弥补这一差距，我们使用了一种预训练语言模型，OpenAI生成式预训练Transformer（GPT）(Radford 等人, 2018)。GPT和类似的模型已经被证明可以捕获语义和语法特征，以及大量“常识”知识，我们假设这些知识是用于识别更加多样化地关系集的重要特征。通过将GPT扩展到远程监督的设置，并在NYT10数据上进行微调，我们表明它能够预测更大的具有高置信度的不同关系类型数据集。对我们的模型的手动和自动评估表明，他在NYT10数据集上实现了0.422的最先进的AUC评分，并且在较高的召回水平上表现尤其的好。

1. 介绍

关系抽取（RE）被定义为被定义为识别文本中提到的概念之间的关系的任务，是许多自然语言处理应用的关键组成部分，如：知识库种群(Ji 和 Grishman, 2011)和问题回答(Yu 等人， 2017)。远程监督(Mintz等人, 2009; Hoffmann 等人, 2011)是一种流行的方法，通过将文本中的实体元组与知识库中的已知关系对齐，以启发式方法生成标记数据，用于训练RE系统，但是仍存在噪声标签和知识库信息不完整的问题(Min 等人, 2013; Fan 等人, 2014)。图1显示了一个实例，其中三个句子被标记了一个现有的知识库关系，其中两个是假正例，并没有真的表达这种关系。
在这里插入图片描述

图1：远程监督通过将文本语料库中的实体元组与知识库中的关系实例对齐，生成噪声标记的关系提取。

目前最先进的RE方法尝试通过应用多实例学习方法来解决这些挑战(Mintz 等人, 2009; Surdeanu等人, 2012; Lin et al., 2016)，并通过显式提供语义和句法知识来指导模型，例如词性标记(Zeng 等人, 2014)和依赖性解析信息(Surdeanu 等人, 2012; Zhang 等人, 2018b)。最近的方法还利用了边信息，例如释义、关系别名和实体类型(Vashishth 等人, 2018)。然而，我们观察到，这些模型往往倾向于高精度地识别一些有限的关系集，而忽略了长尾中的关系（见第5.2节）。

深度语言表示，例如那些由Transformer (Vaswani 等人, 2017)通过语言建模(Radford 等人， 2018)学习到的语言表示，已经被证明仅通过无监督的预训练就可以隐式的捕获有用文本中的语义和语法属性(Peters等人, 2018)，在广泛的自然语言处理任务中最先进的表现证明了这一点(Vaswani 等人, 2017; Peters 等人, 2018; Radford 等人, 2018; Devlin et 等人, 2018)，包括有监督关系抽取(Alt 等人, 2019)。Radford等人（2019）甚至发现，语言模型在没有接受实际任务的情况下，在回答开放领域问题时表现的相当好，表明它们捕获了一些有限的“常识”知识。我们假设，预训练语言模型为远程监督提供了一个更强的信号，更好地指导在基于无监督预训练期间获得的知识的关系抽取。用隐式特征取代显式语言信息和边信息，提高了领域和语言的独立性，增加了被识别的关系的多样性。

本文介绍了一种用于关系抽取的远程监督Transformer（DISTRE）。我们通过一种选择性注意力机制扩展了标准版Transformer的架构，以应对多实例学习和预测，这允许我们直接在远程监督关系抽取任务上微调预训练的Transformer语言模型。这最小化了显式特征特提取同时减少了错误累积的风险。此外自注意力允许模型有效的捕获长期依赖关系，允许语言模型利用在无监督预训练期间获得的关于实体和概念之间的关系的知识。在NYT10数据集上，我们的模型实现了0.422的最先进的AUC评分，当与竞争基线模型作比较时，与在较高召回水平上表现得尤其好。

我们选择GPT作为我们的语言模型是因为他的微调效率和合理的硬件需求，相比于例如基于LSTM的语言模型(Ruder and Howard, 2018; Peters 等人, 2018)或者基于BERT的模型(Devlin 等人, 2018)。本文的贡献可以总结如下：

我们通过聚合具有选择性注意力的句子级信息来生产包级的预测，将GPT扩展到远程监督数据集的处理包级、多实例训练和预测(§3)。
我们在NYT10数据集上评估了我们的微调语言模型，并表明与RESIDE(Vashishth 等人, 2018)和PCNN+A TT (Lin 等人, 2016)在驻留评估上比较，它实现了最先进的AUC(§ 4, § 5.1)。
我们在这些结果的基础上，对排序预测进行了人工评估，证明我们的模型预测了更加多样化的关系数据集，并且在较高召回率上表现得特别的好。
我们将代码公开在https://github.com/DFKI-NLP/DISTRE。

2. Transformer语言模型

本节回顾了Radford等人（2018）介绍的Transformer语言模型。我们首先定义了Transformer-解码器（第2.1节），然后介绍了如何使用语言建模目标学习上下文表示（第2.2节）。

2.1 Transformer-解码器

图2所示的Transformer-解码器(Liu 等人., 2018a)是原始的Transformer (Vaswani 等人, 2017)仅保留解码器的变种。与原始的Transformer一样，该模型在多个层（即Transformer）上重复编码给定的输入表示，包括被位置前馈操作所跟随的被屏蔽的多头自注意力。与原始解码器块相比，这个版本不包含任何形式的不被遮掩的自注意力，因为它没有编码器块。它的公式定义如下：
在这里插入图片描述
其中，T是句子中token索引的one-hot行向量矩阵，We是token的嵌入矩阵；Wp是位置嵌入矩阵，L是Transformer块的数目，hl是在层l的状态。由于Transformer没有隐式的token位置概念，第一层增在输入序列中给每一个token嵌入ept∈Rd在位置p处，增加了一个习得的位置嵌入ep∈Rd。自注意力结构允许块的输出状态hpl被所有的输入状态hl-1通知，这是有效建立远程依赖关系的关键。然而，对于语言建模必须要约束（屏蔽）自注意力不要加入当前token之后的位置。对于更详细的架构描述，我们建议读者参考Vaswani 等人. (2017)和非常优秀的指南“The Annotated Transformer”。

在这里插入图片描述

图2：Transformer块结构和目标函数。在每个L层上应用一个Transformer块以产生状态h1到hl。在将每个句子编码成他的表示si后，选择性注意力用聚集了所有句子的表示通过关系分类器[s1,s2……，sn]。

2.2 语言表示的无监督预训练

给定一个token ci的语料库C={c1，……cn}，语言建模目标是最大化似然：
在这里插入图片描述
其中，k是通过条件概率函数P预测下一个token ci的上下文窗口。目标token的分布使用了前面定义的Transformer模型进行建模如下：

其中，hL为经过最后一层L之后状态的序列，We是嵌入矩阵，θ为通过随机梯度下降优化后的模型参数。结果会体现在每一个输入序列中的token的概率分布中。

3. 使用Transformer进行多实例学习

本节介绍我们对原始的Transformer结构的扩展，使得包级的多实例学习在远程监督数据集变为可能（第3.1节），然后是我们的用于关系抽取的任务特定的输入表示的描述。

3.1 远程监督微调关系抽取

在使用公式2目标函数进行预训练后，语言模型在关系抽取任务进行微调。我们假设有一个标记过的数据集D={xi，headi，taili， ri}i=1……N，其中每个实例都包含一个token xi={x1，x2……xm}的序列，关系的头尾实体在序列中的位置headi和taili，以及由远程监督分配的对应关系的标签ri。由于标签的注释有噪声，标签ri是一个不可靠的训练目标。相反，关系分类被应用于包级别，将每个实体对（head，tail）表示为包含所有实体的所有句子的集合S={x1，……xn}。集合表示法s是对每个单个句子的加权和：
在这里插入图片描述
其中，αi是分配给对应句子表示si的权重。一个句子表示是通过将句子的token序列xi输入预训练模型，并且使用最后一个状态表示hL的最后一个状态hmL最为他的表示si而获得的。集合表示s然后被用于通知分类器。

我们使用选择性注意力（Lin等人，2016），如图2所示，作为集合基于单个句子表示si的包级别表示s的方法。与每个句子表示对包级别表示的贡献相同的平均选择相比，选择性注意力会学习确认具有最能够表达清楚一种关系的特征的句子，当在淡化含有噪声的时候。每句话的权重αi是通过将其表示与学习过的关系表示r进行比较得到的：
在这里插入图片描述
为了计算在关系标签上输出分布P(l)，一个线性层紧跟在softmax被应用于s：

其中，Wr是关系r的表示矩阵，b∈Rdr是一个偏移向量。在微调过程中，我们希望优化以下目标函数：

根据Radford等人(2018)的研究，在微调过程中引入预言建模作为辅助目标函数能够提高泛化能力，加快收敛速度。因此，我们的最终目标函数结合了公式2和公式7：
在这里插入图片描述
其中，标量值λ是微调过程中语言模型目标函数的权重。

3.2 输入表示

我们的输入表示（见图3）将每个句子编码为一个token序列。为了利用子词信息，我们使用字节对编码（BPE）对输入文本进行token化(Sennrich 等人， 2016)。BPE算法从单个字符开始，创建了一个字词token的词汇表。然后，算法迭代的将最频繁同时出现的token合并为一个新的token，直到达到预定义的词汇表大小。对于每个token，我们通过求和对应的token嵌入和位置嵌入来获取它的输入表示。虽然模型是在纯文本句子上预训练的，关系抽取仍然需要一个结构化输入，即一个句子和关系参数。为了对结构做避免任务特定的更改，我们采用了Radford等人(2018)类似的遍历风格方法。结构化的、任务特定的输入被转化为有序的序列，直接提供给模型，而不需要对结构进行修改。图3提供了输入格式的可视化。他从头实体和尾实体的token开始，被分隔符分隔，然后是包含实体对的句子的token序列，最后以一个特殊的分类token结束。分类token向模型发出信号，以生成用于关系分类的句子表示。由于我们的模型从左到右地处理输入，我们在开头添加了关系参数，以便在处理句子地token序列时，将注意力机制偏移向它们地token表示。
在这里插入图片描述

图3：关系抽取需要结构化地输入用于微调，使用特殊的分隔符为输入的各个部分分配不同地含义。输入嵌入h0通过对每个token地位置嵌入和字节对嵌入进行求和而创建的。状态hl是通过对前一层hl-1地状态进行自注意力而得到的。

7. 结论

我们提出了DISTRE，这是一种我们用注意力选择机制扩展的，用于远程监督关系抽取中很常见的多实例学习场景的Transformer。尽管DISTRE对300排名靠前的预测实现的精度较低，我们观察到了最先进的AUC和总体上更平衡的性能，特别是对于较高的召回值。类似的，我们的方法预测了更大的不同关系类型的集合，在顶级预测中具有高置信度。与显式提供边信息和语言特征的RESIDE不同，我们的方法只使用隐式地在预训练语言表示中捕获到的特征。这增加了域和语言的独立性，并且减少了额外的错误，由于可以省略预处理。

在未来的工作中，我们希望进一步研究在深层语言表示中所捕获的语法结构所捕获到的句法结构的程度。由于其通用的结构，DISTRE允许集成额外的上下文信息，例如：关于实体和关系的背景知识，它被证明对进一步提升性能很有用。
————————————————————————
研究生新生读论文中，将持续更新知识图谱、自然语言处理相关论文~

Achuan读论文：用于远程监督关系抽取的微调预训练transformer语言模型