失眠网,内容丰富有趣,生活中的好帮手!
失眠网 > 【知识图谱 赵军 学习笔记】第五章 实体消歧

【知识图谱 赵军 学习笔记】第五章 实体消歧

时间:2019-05-16 18:28:06

相关推荐

【知识图谱 赵军 学习笔记】第五章 实体消歧

第五章 实体消歧

任务概述定义分类基于聚类的实体消歧系统基于实体链接的实体消歧系统相关评测WePSTAC KBP基于聚类的实体消歧方法步骤基于表层特征的实体指称项相似度计算基于扩展特征的实体指称项相似度计算基于社会化网络的实体指称项相似度计算基于实体链接的实体消歧方法链接候选过滤方法实体链接方法向量空间模型主题一致性模型协同实体链接基于神经网络的实体消歧方法面向结构化文本的实体消歧方法

实体具有歧义性,体现在两个方面:

同一实体在文本中会有不同的指称 ⇒\Rightarrow⇒ 指称的多样性相同的实体指称在不同的上下文中可以指不同的实体 ⇒\Rightarrow⇒ 指称的歧义性

任务概述

定义

实体消歧可以通过六元组进行定义

M=N,E,D,O,K,δM = N,E,D,O,K,\deltaM=N,E,D,O,K,δ

N=n1,n2,...,nlN = n_1,n_2,...,n_lN=n1​,n2​,...,nl​是待消歧的实体名集合E=e1,e2,...,ekE = e_1,e_2,...,e_kE=e1​,e2​,...,ek​是待消歧实体名的目标实体列表,包括了所有待消歧实体名可能指向的实体。在实际应用中,目标实体列表通常以知识库的形式给出D=d1,d2,...,dnD = d_1,d_2,...,d_nD=d1​,d2​,...,dn​是一个包含了待消歧实体名的文档集O=o1,o2,...,omO = o_1,o_2,...,o_mO=o1​,o2​,...,om​是DDD中所有待消歧的实体指称项集合。实体指称项表示实体消歧任务的基本单位:一个实体指称项是一个在具体上下文中出现的待消歧实体名,实体指称项的上下文可以通过多种方式自由定义KKK是命名实体消歧任务所使用的背景知识δ:O×K→E\delta:O\times K \rightarrow Eδ:O×K→E是命名消歧函数,若EEE是显示给定的,则δ\deltaδ用于待消歧的实体指称项映射到目标实体列表;若EEE没有显示给出,即它是隐藏变量,则δ\deltaδ按照其指向的目标实体进行聚类 ⇒\Rightarrow⇒核心部分

分类

基于聚类的实体消歧系统

以聚类的方式对实体指称项进行消歧—所有指向同一目标实体的指称项被消歧系统聚在同一类别下,聚类结果中每一个类别对应一个目标实体

基于实体链接的实体消歧系统

通过将实体指称项与目标实体列表中的对应实体进行链接实现消歧

相关评测

分为两种:

WePS:针对基于聚类的命名实体消歧系统TAC KBP的Entity Linking:针对基于实体链接的命名实体消歧系统

WePS

主要是人名

它的评测指标主要有:Purity、InversePurity、FPurity、Inverse Purity、FPurity、InversePurity、F值。

假设C=C1,C2,..,CnC = C_1,C_2,..,C_nC=C1​,C2​,..,Cn​ 表示命名实体消歧系统生成的聚类结果,L=L1,L2,...,LmL = L_1,L_2,...,L_mL=L1​,L2​,...,Lm​ 表示准确的聚类结果,则上述三个评测指标的计算方式如下:

PurityPurityPurity 主要用于评测聚类结果中每个类别的所有指称项是否都指向同一个实体

Purity=∑i=1n∣Ci∣nmaxPrecision(Ci,Lj)Purity=\sum_{i=1}^n \frac{|C_i|}{n}max Precision(C_i,L_j)Purity=∑i=1n​n∣Ci​∣​maxPrecision(Ci​,Lj​)

Precision(Ci,Lj)=Ci∩LjCiPrecision(C_i,L_j)=\frac{C_i \cap L_j}{C_i}Precision(Ci​,Lj​)=Ci​Ci​∩Lj​​ InversePurityInverse PurityInversePurity 聚类的倒纯净度,主要用于评测聚类结果中的每个类别是否召回了足够多该类别下实体的指称项 ⇒\Rightarrow⇒ 召回率

InversePurity=∑i=1m∣Li∣nmaxjPrecision(Ci,Lj)Inverse Purity=\sum_{i=1}^m \frac{|L_i|}{n}max_j Precision(C_i,L_j)InversePurity=∑i=1m​n∣Li​∣​maxj​Precision(Ci​,Lj​)F值:最终打分指标

TAC KBP

假设目标只是库时不完备的。在目标实体知识库中,每一个实体节点包含以下几方面信息:

实体的名字实体的类别:从PER(人物)、GPE(地点)、ORG(机构)、UKN(未知类别)知识库ID属性信息:提供一个实体属性信息的集合,主要从WIkipedia的Infobox中抽取消歧文本:用于实体消歧的信息

主要评测指标为 Micro−averagedMicro-averagedMicro−averaged accuracyaccuracyaccuracy

基于聚类的实体消歧方法

步骤

(1)对每一个实体指称项 ooo,抽取其特征(如上下文中的词、实体、概念),并将其表示成特征向量 o=ω1,ω2,...,ωno=\omega_1,\omega_2,...,\omega_no=ω1​,ω2​,...,ωn​

(2)计算实体指称项之间的相似度

(3)采用某种聚类算法对实体指称项聚类,使得聚类结果中每一个类别都对应在一个目标实体上。

⇒\Rightarrow⇒ 关键问题:计算指称项之间的相似度

⇒\Rightarrow⇒ 分类:基于表层特征的实体指称项相似度计算;基于扩展特征的实体指称项相似度计算;基于社会化网络的实体指称项相似度计算

基于表层特征的实体指称项相似度计算

基于词袋子模型的实体消歧,采用TF-IDF算法计算基于实体指称项的Term向量表示,实体消歧系统通常使用向量的Cosine相似度来计算实体指称项之间的相似度这种方法是基于指称项上下文中表层特征的关联来计算它们之间的相似度,没有考虑到上下文特征的内在关联 ⇒\Rightarrow⇒ 影响聚类效果

基于扩展特征的实体指称项相似度计算

使用知识资源来扩展实体指称项的特征表示抽取的属性信息有以下作用:作为实体指称项的扩展特征;重构聚类结果(属性信息提供了更准确的实体指称项信息)

基于社会化网络的实体指称项相似度计算

通常使用基于图的算法,以此能够充分利用社会化关系的传递性 ⇒\Rightarrow⇒ 获得隐藏的关系知识缺点:这种方法只用到上下文中的实体信息,不能完全利用实体指称项的其他上下文信息 ⇒\Rightarrow⇒ 不能在实体消歧领域取得有竞争力的性能实体指称项之间的相似度计算通常使用图算法中的随机游走算法

基于实体链接的实体消歧方法

实体链接是指将一个命名实体的文本指称项链接到知识库中相应实体的过程,如果知识库中可能不包含待消歧指称项的对应实体,则将实体指称项链接到空实体NIL

实体链接的输入包含两个部分:

目标实体知识库待消歧实体指称项及其上下文信息

实体链接任务的两个步骤:

链接候选过滤实体链接:确定该实体指称项最终指向的目标实体

链接候选过滤方法

基于实体指称项词典,可以通过查词典的方式方便地获取一个指称项所有可能指向的实体

实体链接方法

给定一个指称项 mmm 及其链接候选 E=e1,e2,...,enE=e_1,e_2,...,e_nE=e1​,e2​,...,en​,实体链接方法选择与指称项具有最高一致性打分的实体作为其目标实体:e=argmaxeScore(e,m)e=arg max_e Score(e,m)e=argmaxe​Score(e,m)

计算Score(e,m)Score(e,m)Score(e,m)的方法分为四种:向量空间模型;主题一致性模型;协同实体链接模型;基于神经网络的模型

向量空间模型

实体指称项与目标实体的一致性打分主要基于实体指称项上下文与目标实体上下文中特征的共现信息来确定主要难点:如何抽取有效的特征表示;如何更为有效地计算向量之间的相似度

主题一致性模型

实体指称项与目标实体的一致性打分的主要依据是实体概率的描述文本和实体指称项的上下文在主体一致性模型中,决定一致性打分的是实体指称项的候选实体概念与指称项上下文中的其他实体概念的一致性程度通常需要考虑以下两个要素:上下文实体的重要程度;如何计算一致性

协同实体链接

NP问题 → 复杂度

基于神经网络的实体消歧方法

传统的计算方法主要利用自然语言处理工具来抽取词性、依存句法等特征,但特征可扩展性差

面向结构化文本的实体消歧方法

利用实体流行度和上下文实体联合消歧的方法基于检索的列表型实体消歧方法:将待消歧的实体输入到搜索引擎中,然后根据检索得到的网页信息对实体类别进行判断,进而辅助实体消歧基于特征的infobox实体链接方法:抽取待消歧实体的七种特征,然后利用极大似然估计的方法训练七项特征的权重大小。

如果觉得《【知识图谱 赵军 学习笔记】第五章 实体消歧》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。