失眠网 > 【知识图谱赵军学习笔记】第五章实体消歧

【知识图谱赵军学习笔记】第五章实体消歧

时间：2019-05-16 18:28:06

相关推荐

【知识图谱赵军学习笔记】第五章实体消歧

第五章实体消歧

任务概述定义分类基于聚类的实体消歧系统基于实体链接的实体消歧系统相关评测WePSTAC KBP基于聚类的实体消歧方法步骤基于表层特征的实体指称项相似度计算基于扩展特征的实体指称项相似度计算基于社会化网络的实体指称项相似度计算基于实体链接的实体消歧方法链接候选过滤方法实体链接方法向量空间模型主题一致性模型协同实体链接基于神经网络的实体消歧方法面向结构化文本的实体消歧方法

实体具有歧义性，体现在两个方面：

同一实体在文本中会有不同的指称 ⇒\Rightarrow⇒ 指称的多样性相同的实体指称在不同的上下文中可以指不同的实体 ⇒\Rightarrow⇒ 指称的歧义性

任务概述

定义

实体消歧可以通过六元组进行定义：

M=N,E,D,O,K,δM = N,E,D,O,K,\deltaM=N,E,D,O,K,δ

N=n1,n2,...,nlN = n_1,n_2,...,n_lN=n1,n2,...,nl是待消歧的实体名集合E=e1,e2,...,ekE = e_1,e_2,...,e_kE=e1,e2,...,ek是待消歧实体名的目标实体列表，包括了所有待消歧实体名可能指向的实体。在实际应用中，目标实体列表通常以知识库的形式给出D=d1,d2,...,dnD = d_1,d_2,...,d_nD=d1,d2,...,dn是一个包含了待消歧实体名的文档集O=o1,o2,...,omO = o_1,o_2,...,o_mO=o1,o2,...,om是DDD中所有待消歧的实体指称项集合。实体指称项表示实体消歧任务的基本单位：一个实体指称项是一个在具体上下文中出现的待消歧实体名，实体指称项的上下文可以通过多种方式自由定义KKK是命名实体消歧任务所使用的背景知识δ:O×K→E\delta:O\times K \rightarrow Eδ:O×K→E是命名消歧函数，若EEE是显示给定的，则δ\deltaδ用于待消歧的实体指称项映射到目标实体列表；若EEE没有显示给出，即它是隐藏变量，则δ\deltaδ按照其指向的目标实体进行聚类 ⇒\Rightarrow⇒核心部分

基于聚类的实体消歧方法

步骤

（1）对每一个实体指称项 ooo，抽取其特征（如上下文中的词、实体、概念），并将其表示成特征向量 o=ω1,ω2,...,ωno=\omega_1,\omega_2,...,\omega_no=ω1,ω2,...,ωn

（2）计算实体指称项之间的相似度

（3）采用某种聚类算法对实体指称项聚类，使得聚类结果中每一个类别都对应在一个目标实体上。

⇒\Rightarrow⇒ 关键问题：计算指称项之间的相似度

⇒\Rightarrow⇒ 分类：基于表层特征的实体指称项相似度计算；基于扩展特征的实体指称项相似度计算；基于社会化网络的实体指称项相似度计算

基于表层特征的实体指称项相似度计算

基于词袋子模型的实体消歧，采用TF-IDF算法计算基于实体指称项的Term向量表示，实体消歧系统通常使用向量的Cosine相似度来计算实体指称项之间的相似度这种方法是基于指称项上下文中表层特征的关联来计算它们之间的相似度，没有考虑到上下文特征的内在关联 ⇒\Rightarrow⇒ 影响聚类效果

基于扩展特征的实体指称项相似度计算

使用知识资源来扩展实体指称项的特征表示抽取的属性信息有以下作用：作为实体指称项的扩展特征；重构聚类结果（属性信息提供了更准确的实体指称项信息）

基于社会化网络的实体指称项相似度计算

通常使用基于图的算法，以此能够充分利用社会化关系的传递性 ⇒\Rightarrow⇒ 获得隐藏的关系知识缺点：这种方法只用到上下文中的实体信息，不能完全利用实体指称项的其他上下文信息 ⇒\Rightarrow⇒ 不能在实体消歧领域取得有竞争力的性能实体指称项之间的相似度计算通常使用图算法中的随机游走算法

基于实体链接的实体消歧方法

实体链接是指将一个命名实体的文本指称项链接到知识库中相应实体的过程，如果知识库中可能不包含待消歧指称项的对应实体，则将实体指称项链接到空实体NIL

实体链接的输入包含两个部分：

目标实体知识库待消歧实体指称项及其上下文信息

实体链接任务的两个步骤：

链接候选过滤实体链接：确定该实体指称项最终指向的目标实体

链接候选过滤方法

基于实体指称项词典，可以通过查词典的方式方便地获取一个指称项所有可能指向的实体

实体链接方法

给定一个指称项 mmm 及其链接候选 E=e1,e2,...,enE=e_1,e_2,...,e_nE=e1,e2,...,en，实体链接方法选择与指称项具有最高一致性打分的实体作为其目标实体：e=argmaxeScore(e,m)e=arg max_e Score(e,m)e=argmaxeScore(e,m)

计算Score(e,m)Score(e,m)Score(e,m)的方法分为四种：向量空间模型；主题一致性模型；协同实体链接模型；基于神经网络的模型