失眠网 > [论文阅读笔记52]深度学习实体关系抽取研究综述

[论文阅读笔记52]深度学习实体关系抽取研究综述

时间：2022-05-08 23:23:49

来源：软件学报

1.摘要：

围绕有监督和远程监督两个领域,系统总结了近几年来中外学者基于深度学习的实体关系

抽取研究进展,并对未来可能的研究方向进行了探讨和展望.

2.经典的实体关系抽取方法

有监督[基于特征和基于核函数的方法,研究词汇、句法和语义特征对实体语义关系抽取的影响]、半监督、弱监督和无监督

3.定义

实体关系抽取：是指在实体识别的基础上,从非结构化文本中抽取出预先定义的

实体关系.—这里研究的时关系抽取，不讨论实体抽取.“实体关系抽取”这里不理解为“实体抽取与关系抽取”。

基于深度学习的关系抽取：监督，远程监督

基于方法：流水线学习，联合学习

流水线学习方法是指在实体识别已经完成的基础上直接进行实体之间关系

的抽取;

联合学习方法主要是基于神经网络的端到端模型,同时完成实体的识别和实体间关系的抽取.

4.解决问题框架

5.有监督实体关系抽取方法

演化流程

流水线方法:

RNN扩展:在RNN基础之上增加依存分析树信息、词依存矩阵信息;

CNN扩展:在CNN基础之上增加类别排名信息、依存分析树、注意力机制;

LSTM扩展:在LSTM基础之上增加最短依存路径(SDP)或将LSTM与CNN结合.

流水线方法存在错误累积传播、忽视子任务间关系依赖、产生冗余实体等问题.

联合模型:

参数共享方法的编码层均使用Bi-LSTM,解码层则基于Bi-LSTM、依赖树和注意力机制等方法纷纷进行优化扩展;

序列标注方法则用一种新标注策略的端到端模型解决流水线模型中冗余实体的问题.

6. 基于深度学习的远程监督实体关系抽取方法

远程监督主要解决语料问题，解决消耗大量人力问题。

远程监督标注数据时主要有两个问题：噪声和特征提取误差传播．

噪声问题是由于远程监督的强假设条件，导致大量数据的关系被错误标记，使得训练数据存在大量噪声；

特征提取中的误差传播问题是由于传统的特征提取主要是利用NLP工具进行数据集的特征提取，因此会引入大量的传播误差。

演化流程

主流方法总结：

7.新模型与新思路

7.5 融合深度增强学习的实体关系抽取

[60] Feng Y, Zhang H, Hao W, Chen G. Joint extraction of entities and relations using reinforcement learning and deep learning. In: Proc. of the Comput Intell Neurosci. .1-11. https://www.ncbi.nlm.nih.gov/pubmed/28894463

提出了基于增强学习和深度学习的联合学习方法抽取实体和关系的模型．【两步决策过程】

[61] Qin P, Xu W, Wang WY. Robust distant supervision relation extraction via deep reinforcement learning. arXiv preprint arXiv: 1805.09927, .

于ACL会议上提出一种深度增强学习的远程监督实体关系抽取方法，认为多示例和注意力机制并非最理想的降噪方法，那些被错误打标的数据依旧作为模型的训练数据，影响着关系抽取的效果．因此，Qin用深度增强学习方法训练一个正例、负例数据识别器．不同于之前研究中将负例移除的方式，Qin是将不存在目标关系的示例语句放入负例集中，将正例数据和负例数据正确分类，并充分利用了正例数据和负例数据的信息．

7.6 融合生成对抗网络的实体关系抽取

通过在词向量表示阶段引入对抗性噪声并给出新的损失函数来增加模型的准确率．

其主要思路是：生成器和判别器为博弈对方，生成器拟合数据的产生过程生成模型样本，判别器通过增加噪声样本增强模型准确率和鲁棒性，优化目标是达到纳什均衡．

提出对抗网络，将对抗训练引入到文本分类任务中，将生成对抗网络引入弱监督实体关系抽取中，[64]将生成对抗网络引入到远程监督关系抽取中,用于筛选错误标签，最终达到降噪的效果.

[64] Qin P, Xu W, Wang WY. DSGAN: Generative adversarial training for distant supervision relation extraction. arXiv preprint arXiv: 1805.09929, .

步骤：
a) 预训练:对生成器和鉴别器进行预训练, 得到生成器和鉴别器的参数θ_G和θ_D.由于在良好初始化参数的情况下对抗训练很容易趋于收敛, 因此预训练具有很好的优化效果.本文生成器和鉴别器都用简单的卷积神经网络, 相比于循环神经网络, 卷积神经网络具有更少的参数;

b) 数据划分:一次迭代(epoch)扫描远程监督训练集中所有正例集P={s1,s2, …,sj, …}, 将其划分为N个包:B={Bag1,Bag2, …,Bagk, …}, 一次处理一个包中的全部数据;

c) 生成器训练:生成器计算包中正样本的概率分布, 其产生的高置信样本被认为是真实的正例样本, 然后根据这个概率分布进行抽样;

d) 对抗器训练:对抗器接收这些高置信度样本, 但将其视为负样本; 相反, 低置信度的样本仍被视为正样本.在这个过程中, 模型会以预训练的参数进行初始化;

e) 交替训练:对于生成的样本, 生成器使真正的概率最大; 相反, 对抗器使这个概率最小.两个网络交替进行训练, 更新θ_G和θ_D.

8. 在生物医药领域中的实体关系抽取

9.数据集

9.1 有监督领域

**MUC关系抽取任务数据集：**MUC一7包含五大评测任务：命名实体识别、指代消解、模版元素填充、模版关系确定和场景模版填充．其中，关系抽取首次作为一个独立的评测任务被提出来．MUC-7的数据语料主要是取自新闻语料，主要是飞机失事事件报道和航天器发射事件报道．MUC会议停开以后，ACE会议也将关系抽取任务作为会议的一个子任务;
**ACE关系抽取任务数据集：**ACE会议从2002年～一直将关系抽取任务作为一个子任务，其中获得广泛认可的是ACE04／ACE05．其中，ACE04语料库来源于语言数据联盟(1inguistic data consortium，简称LDC)，分成广播新N(BNEWS)和新闻专线(NWIRE)两个部分，总共包含451个文档和5 702个关系实例．ACE04提供了丰富的标注信息，从而为信息抽取中的实体识别、指代消解和关系抽取凳子任务提供基准(benchmark)的训练和测试语料库．而ACE05作为ACE04的扩充，对ACE04数据集进行了适当的修改与完善；
**SemEval一 Task 8数据集：**SemEval是由Senseval演变而来的语义评测．Senseval是由ACL—SIGLEX组织的国际权威的词义消歧评测，但由于Senseval中除词义消歧外有关语义分析的任务越来越多，之后，Senseval委员会决定把评测名称改为国际语义评测(SemEval)．SemEval- Task 8数据集是SemEval语义评测的子任务，构建于，此任务用于名词间多种语义关系的分类．数据集根据预设定的9种互不相容关系从各大数据源收集而来，数据源包括WordNet，Wikipedia data，Google n-grams等．数据集共包含10 717条数据，其中，训练集有8 000条，测试集有2 717条．数据集中9种关系，分别为：Cause—Effect(因果关系)，Instrument—Agency(操作、使用关系)，Product-Producer(产品．生产者关系)，Content—Container(空间包含关系)，Entity-Origin(起源关系)，Entity-Destination(导向关系)，Component—Whole(组件-整体关系)，Member-Collection(成员．集合关系)，Message-Topic(主题关系)．每条数据是一个包含实体对的句子，类别标签为实体对在该句中表现出的关系；
**MPQA 2．0语料库：**包含来自各种新闻源的新闻文章和社论，数据集中共有482个文档，包含9 471个带有短语级别注释的句子．数据集中包含观点实体的黄金标准注释，如观点表达、观点目标和观点持有者；还包含观点关系的注释，如观点持有者和观点表达之间的IS—FROM关系、观点目标和观点表达之间的IS—ABoUT关系：
**BioNLP—ST 的BB任务：**此任务是针对细菌／位置实体抽取和两者间Lives In关系抽取而设立的一个标准竞赛，数据集由来自PubMed的161个科学论文摘要组成，数据集中包含3种类型的实体：细菌、栖息地和地理位置；包含一种关系：Lives In，指由细菌．栖息地构成的Lives In关系或由细菌．地理位置构成的Lives In关系．

9.2 远程监督领域

NYT-FB数据集.

这个数据集是由Freebase知识库对其纽约时报的文本获得的数据集．训练数据为知识库对其、文本获得的，测试库数据为知识库对其文本获得的．NYT-FB数据集中共有53种关系，共计695 059条数据(其中训练集包含522 611条训练语句，训练数据中有近80％的句子的标签为NA，测试集包含172 448条测试语句)，通过结合FreeBase对NYT语料做实体链接、关系对齐等操作进行标注，最终得到一个被广泛使用的关系抽取数据集．

10. 典型论文的评测结果

11. 未来研究方向和总结

(1)重叠实体关系识别

(2)跨句子级别关系抽取

(3)关系类型OOV问题

(4)解决远程监督的错误标签问题

目前主流的方式：
(a)利用多示例学习方法对测试包打标签；
(b)采用Attention机制对不同置信度的句子赋予不同的权值．
但这两种方法都不可避免地会将一些不具有某个关系的句子作为这个关系的训练语句：在多示例学习方法的情况下，若一个包中全是负例(包中没有一个句子的关系是实体对对齐知识库得到的关系)，即使取出概率最大的语句作为这个包的训练语句，其仍是噪声语句；而在Attention机制下，虽将并不代表实体对关系的语句给予较小的权重，但本质上仍是将其作为正例放入训练集中，仍是会引入噪声．