cs224w课程学习笔记-第11课

发布于:2025-05-13 ⋅ 阅读:(18) ⋅ 点赞:(0)

前言

根据上一节课的异构图内容我们知道知识图谱也是经典的异构图,并在上节课的论文分类按例中提到最佳方案不是使用RGCN模型,而是使用了知识图谱嵌入模型complEX与简单的GCN模型(其原因是知识图谱类数据通常关系类型数多,异构图的RGCN着重于局部,无法很好的表征全部与全局性的语义关系,此时使用语义关系嵌入的模型提取全局与全面的关系信息,再使用GCN进行局部信息提取,其最终的嵌入表征能力会更强).因此本节课我们就来了解一下知识图谱嵌入的思想,常见模型与其表征能力.

一、知识图谱

1、知识图谱特点

知识图谱是典型的异构图,其节点是实体,具备节点类型,节点与节点之间有关系类型.
以下图论文知识图谱为例,其节点有作者,论文,会议,年份,标题;节点间的关系类型有发表于哪个会议,发表于哪一年,是否有标题,是否是引用关系,是否有该作者
在这里插入图片描述
知识图谱通常很大,

  • 有上百万个节点,边
  • 其有很多真实的边是缺失的
    因此做知识图谱的补充是一个常见的任务

2、关系类型

由于知识图谱都是实体的节点,因此实体间关系具备一些特点,其特点总结如下

  • 对称性:如同学A与同学B是室友关系,那么同学B与同学A也是室友关系,因此只要其一条边存在,另外一条边也应该存在
  • 反向关系:如同学A是老师F的学生,那么反过来老师F是同学A的老师,因此只要其一条边存在,另外一条边也应该存在
  • 传递关系:关系 R 满足 R(a,b) 且 R(b,c) 时,必然有 R(a,c) 成立.如长沙属于湖南省,湖南省属于中国,那么长沙必然属于中国,这种关系特点可以做边的补全,以及矛盾检测
  • 1对n的关系:一个实体(头节点)可以关联到多个实体(尾节点).如一个文件夹包含多个文件,一个老师下有多名学生.这种关系特点也是可以做补全,高效检索等

二、知识图谱嵌入

1、嵌入核心思想

知识图谱中的边表示为三元组(h,r,t),h表示开始节点,t表示结束节点,r表示两者间的关系类型,其嵌入目标是希望给定三元组,其(h,r)的嵌入能尽可能接近t的嵌入.
对目标进行拆解得到第一步是要得到(h,r)的嵌入,第二步是要衡量两者嵌入的得分 f r ( h , t ) f_r(h,t) fr(h,t),其边存在时得分尽可能高,不存在时得分低.
接下来根据该核心思想设计嵌入模型.

2、嵌入模型

下图是目前嵌入模型发展情况,其主要的原理是根据不同的几何直观感受设计,不同模型其表征能力有所不同,接下来我们将了解下面几个模型的原理及其表征能力

在这里插入图片描述

2.1 嵌入模型transE

1)、核心思想

TransE 将知识图谱中的三元组 (h,r,t)(头实体、关系、尾实体)建模为向量空间中的平移关系:其目标是若边存在,则向量(h,r)尽可能等于向量t,其向量图表示如下图所示,这样一来嵌入得分函数设计为 f r ( h , t ) = ∣ ∣ h + r − t ∣ ∣ f_r(h,t)=||h+r-t|| fr(h,t)=∣∣h+rt∣∣
在这里插入图片描述
根据得分函数,设计loss函数 l o s s = ∑ ( β + f r ( h , t ) − f r ( h ′ , t ′ ) ) loss=\sum(\beta+f_r(h,t)-f_r(h',t')) loss=(β+fr(h,t)fr(h,t)),其中 β \beta β控制正负样本得分的超参, h ′ , t ′ h',t' h,t 是替换首尾节点得到的负样本的首尾节点,该loss函数采用边际排名损失(Margin-based Ranking Loss),鼓励正确三元组的得分低于错误三元组的得分

2)、训练步骤

该模型是将节点与关系都嵌入到同一个向量空间中,因此假设嵌入K维向量空间中.

  • 首先要对节点嵌入与关系嵌入初始化为均匀分布 ( − 6 / k , 6 / k ) (-6/\sqrt{k},6/\sqrt{k}) (6/k ,6/k ),并标准化 r = r / ∣ ∣ r ∣ ∣ r=r/||r|| r=r/∣∣r∣∣
  • 然后根据已有边,通过替换未存在的首尾节点得到负样本
  • 最后计算损失函数,通过梯度下降更新实体和关系的向量表示

重复上述过程,直到迭代次数完成.

3)、模型表征能力

根据模型核心思想,验证其嵌入在不同关系类型下是否能够区分

  • 对称性,已知h+r=t,若对称则t+r’=h,由下图只能r’为空时成立,则t=h,是同一个实体节点,不符合对称性,因此对称性不满足,非对称性满足
  • 反向关系:已知h+r=t,反向关系为t-r=h,从向量操作上看满足,因此反向关系满足
  • 传递关系:已知x+r1=y,y+r2=z,则看x,z的关系,x+r1=z-r2,变换得x+r1+r2=z,令r3=r1+r2,成立,因此传递关系满足
  • 1对N 的关系:已知h+r=t1,要h+r=t2,除非t1=t2,实际不满足同首节点对于多个尾节点的特性,因此1对N关系不满足
    在这里插入图片描述

2.2 嵌入模型TransR

前面提到的模型是将节点,关系嵌入到同一个向量空间中,如果将两者嵌入到不同空间,再通过一个映射矩阵联系两者,这样是不是能克服transE 在对称与1对N关系上表征能力不够的问题?
其核心思想如下图所示,在计算得分函数时,将节点嵌入通过映射矩阵 M r M_r Mr,映射到关系嵌入空间中,然后计算得分.
在这里插入图片描述

接下来也同样通过向量空间内的向量操作来解释该方法是否可行.

  • 对称性,已知hMr+r=tMr,若对称则tMr+r=hMr,由下图r为0向量时成立,且t,h,不是同一个实体节点,因此对称性满足,r不为0向量时,非对称性满足
  • 反向关系:已知hMr+r=tMr,反向关系为tMr-r=hMr,从向量操作上Mr1=Mr2,r1=-r2时满足,因此反向关系满足
  • 1对N 的关系:已知hMr+r=t1Mr,要hMr+r=t2Mr,右下角图显示,满足同首节点对于多个尾节点的特性,因此1对N关系满足
    在这里插入图片描述
  • 传递性关系:其证明不再展开,其核心点是模型的三元组表达是通过映射矩阵连接,是线性表达,有线性函数的线性变换是可传递的,因此关系满足

2.3 DistMult嵌入模型

1)、核心思想

该类型模型与前面两种的核心思想有较明显的差别.DistMult基于双线性模型,通过关系矩阵的对角化简化计算,捕捉实体与关系的交互。其评分函数有了明显的变化,可以明显看到该函数是乘法型的,前面的评分函数是加法型的.这里的句子A明显内涵信息很多,在实际验证中发现会造成过拟合,因此在模型中使用限制A为对角矩阵.这样的话得分函数式子为 f r ( h , t ) = ∑ i h i r i t i f_r(h,t)=\sum_i h_ir_it_i fr(h,t)=ihiriti,节点与关系均是K空间中的嵌入
在这里插入图片描述

2)、表征能力

在分析该模型的表征能力前,我们回想一下transE是通过向量空间中的向量平移关系来理解其表征的,那么DistMult模型如何中向量空间里进行理解呢?我们再次看向得分函数 f r ( h , t ) = ∑ i h i r i t i = < h , r , t > f_r(h,t)=\sum_i h_ir_it_i=<h,r,t> fr(h,t)=ihiriti=<h,r,t>可以看作是向量h·r与t的余弦相似性,回忆一下余弦相似.
在这里插入图片描述
这样的话得分函数可以写为下图的形式,又知余弦在直角三角形中等于邻边除以斜边,如此我们来看一下它的关系表达能力
在这里插入图片描述

  • 对称性:首先余弦相似性是不区分向量的先后的,也就是所有的 < h , r , t > = < t , r , h > <h,r,t>=<t,r,h> <h,r,t>=<t,r,h>,这样的话所有的关系默认对称的,没有不对称的
  • 1对n的关系:如下图所示 < h , r , t 1 > = c ∣ ∣ h . r ∣ ∣ = < h , r , t 2 > <h,r,t1>=c||h.r||=<h,r,t2> <h,r,t1>=c∣∣h.r∣∣=<h,r,t2>,其中c是直角三角形的邻边,下图可以看到邻边是相同的,因此满足该关系
  • 传递关系,涉及到节点的先后次序,前面已经提到了该得分函数是不区分的,因此不满足.
  • 反向关系:我们知道反向其关系不是同一个映射,在节点相同,关系映射不为0且不同时,不满足 < h , r 1 , t > = < h , r 2 , t > <h,r1,t>=<h,r2,t> <h,r1,t>=<h,r2,t>,因此不满足.
    在这里插入图片描述

2.4 complEX 嵌入模型

基于DIstMult模型可知其只能表征好对称的与1对N 的关系,因此complEX 嵌入模型将嵌入空间扩展到复数空间上,来提升嵌入表征能力,其复数域的得分函数变为下图形式,通过复数计算((a+bi)(c+di)=(ac-bd)+i(ac+bd))得到,值得注意的是尾部节点的表示.与首节点的表示有所不同(共轭表达)
在这里插入图片描述
有了得分式子,就可以根据该式子与复数的特点,分析该模型的表征能力如何

  • 对称性:虚部 I m ( r i ) Im(r_i) Im(ri)为0时, f r ( h , t ) = f r ( t , h ) f_r(h,t)=f_r(t,h) fr(h,t)=fr(t,h),因此满足对称性与非对称性
  • 反向关系:当正向关系r1与反向关系r2是共轭关系时,满足该关系
  • 1对N:类似DistMult满足该关系
  • 传递关系:不满足

三、总结

总结一下加法类嵌入模型与乘法类嵌入模型的表征能力如下表所示,其中RotateE是transE 的复数域扩展.可以看到其嵌入有常数空间,复数空间,以及多常数空间,其表征特点加法模型偏向非对称类关系,乘法偏向对称性,当然其下的扩展模型综合能力均得到了增强,扩展模型计算会更复杂.
在这里插入图片描述
应用建议:若数据存在明显对称特点,或着重其一两个表征能力,推荐选择基础版本的模型,其计算量更小参数更简单.


网站公告

今日签到

点亮在社区的每一天
去签到