实体关系抽取作为信息抽取、自然语言理解、信息检索等领域的核心任务和重要环节,能够从文本中抽取实体对间的语义关系.近年来,深度学习在联合学习、远程监督等方面上的应用,使关系抽取任务取得了较为丰富的研究成果.目前,基于深度学习的实体关系抽取技术,在特征提取的深度和模型的精确度上已经逐渐超过了传统基于特征和核函数的方法.围绕有监督和远程监督两个领域,系统总结了近几年来中外学者基于深度学习的实体关系抽取研究进展,并对未来可能的研究方向进行了探讨和展望.
Entity relation extraction is a core task and an important part in the fields of information extraction, natural language understanding, and information retrieval. It can extract the semantic relationships between entity pairs from the texts. In recent years, the application of deep learning in the fields of joint learning, remote supervision has resulted in relatively abundant research results in relation extraction tasks. At present, entity relationship extraction technology based on deep learning has gradually exceeded the traditional methods which are based on features and kernel functions in terms of the depth of feature extraction and the accuracy. This paper focuses on the two fields of supervision and remote supervision. It systematically summarizes the research progress of Chinese and overseas scholars' deep relationship-based entity relationship extraction in recent years, and discusses and prospects future possible research directions as well.
随着互联网技术的发展, 人们需要处理的数据量激增, 领域交叉现象突出.如何快速高效地从开放领域的文本中抽取出有效信息, 成为摆在人们面前的重要问题.实体关系抽取作为文本挖掘和信息抽取[
经典的实体关系抽取方法主要分为有监督、半监督、弱监督和无监督这4类.有监督的实体关系抽取主要分为基于特征和基于核函数的方法.Zhou[
经典方法存在特征提取误差传播问题, 极大影响实体关系抽取效果.随着近些年深度学习的崛起, 学者们逐渐将深度学习应用到实体关系抽取任务中[
为了能够系统综述相关研究成果, 我们查阅了近年来的综述论文[
本文首先在第1节给出实体关系抽取的问题定义和解决框架.着重在第2节、第3节介绍基于深度学习的有监督和远程监督领域的实体关系抽取研究进展.之后, 在第4节介绍基于深度学习的实体关系抽取新模型与新思路.并在第5节介绍基于深度学习的实体关系抽取在领域知识图谱构建中的研究进展.最后, 在第6节、第7节给出数据集、评测效果以及对未来研究方向的展望.
实体关系抽取作为信息抽取的重要任务, 是指在实体识别的基础上, 从非结构化文本中抽取出预先定义的实体关系.实体对的关系可被形式化描述为关系三元组〈
基于深度学习实体关系抽取主要分为有监督和远程监督两类.在有监督中, 解决实体关系抽取的方法可以分为流水线学习和联合学习两种:流水线学习方法是指在实体识别已经完成的基础上直接进行实体之间关系的抽取; 联合学习方法主要是基于神经网络的端到端模型, 同时完成实体的识别和实体间关系的抽取.与有监督实体关系抽取相比, 远程监督方法缺少人工标注数据集, 因此, 远程监督方法比有监督多一步远程对齐知识库给无标签数据打标的过程.而构建关系抽取模型的部分, 与有监督领域的流水线方法差别不大.
基于深度学习的实体关系抽取、实体关系识别、实体关系分类是3个任务相近、彼此有关联的概念.具体而言, 关系抽取[
针对实体关系抽取任务, 基于深度学习的抽取框架如
基于深度学习的实体关系抽取框架
Entity relationship extraction framework based on deep learning
(1) 获取有标签数据:有监督方法通过人工标记获取有标签数据集, 远程监督方法通过自动对齐远程知识库获取有标签数据集;
(2) 构建词语向量表示:将有标签句子分词, 将每个词语编码成计算机可以接受的词向量, 并求出每个词语与句子中实体对的相对位置, 作为这个词语的位置向量, 将词向量与位置向量组合作为这个词语的最终向量表示;
(3) 进行特征提取:将句子中每一个词语的向量表示输入神经网络中, 利用神经网络模型提取句子特征, 进而训练一个特征提取器;
(4) 关系分类:测试时根据预先定义好的关系种类, 将特征提取出的向量放入非线性层进行分类, 提取最终的实体对关系;
(5) 评估分类性能:最后, 对关系分类结果进行评估, 评测指标和相关数据集详见第6节.
基于深度学习方法中的有监督方法进行关系抽取, 是近年来关系抽取的研究热点, 其能解决经典方法中存在的人工特征选择、特征提取误差传播两大主要问题, 将低层特征进行组合, 形成更加抽象的高层特征, 用来寻找数据的分布式特征表示.从基于监督学习的神经网络模型来看, 研究主要集中在融合多种自然语言特征来提高识别精确度.有监督的实体关系抽取框架的演化流程如
基于有监督的实体关系抽取的解决框架
Solution framework based on supervised entity relationship extraction
基于深度学习的有监督实体关系抽取可以分为:1)流水线方法; 2)联合学习方法.这两种方法都基于CNN, RNN, LSTM这3种框架进行扩展优化.
● 流水线方法中, 基于RNN模型的扩展包括在RNN基础之上增加依存分析树信息、词依存矩阵信息; 基于CNN模型的扩展包括在CNN基础之上增加类别排名信息、依存分析树、注意力机制; 基于LSTM模型的扩展包括在LSTM基础之上增加最短依存路径(SDP)或将LSTM与CNN结合.流水线方法存在错误累积传播、忽视子任务间关系依赖、产生冗余实体等问题, 因此, 联合模型逐渐开始受到重视;
● 联合学习方法根据其建模对象不同, 可分为参数共享和序列标注两类子方法:参数共享方法的编码层均使用Bi-LSTM, 解码层则基于Bi-LSTM、依赖树和注意力机制等方法纷纷进行优化扩展; 序列标注方法则用一种新标注策略的端到端模型解决流水线模型中冗余实体的问题.
下面依照流水线方法(基于RNN模型的实体关系抽取方法、基于CNN模型的实体关系抽取方法、基于LSTM模型的实体关系抽取方法)、联合学习方法(基于参数共享的实体关系抽取方法、基于序列标注的实体关系抽取方法)的顺序来介绍有监督领域实体关系抽取方法.
基于流水线的方法进行关系抽取的主要流程可以描述为:针对已经标注好目标实体对的句子进行关系抽取, 最后把存在实体关系的三元组作为预测结果输出.一些基于流水线方法的关系抽取模型被陆续提出, 其中, 采用基于RNN, CNN, LSTM及其改进模型的网络结构, 因其高精度获得了学术界的大量关注.
(1) 基于RNN模型的实体关系抽取方法
RNN在处理单元之间既有内部的反馈连接又有前馈连接, 可以利用其内部的记忆来处理任意时序的序列信息, 具有学习任意长度的各种短语和句子的组合向量表示的能力, 已成功应用在多种NLP任务中.
基于RNN模型进行关系抽取的方法由Socher等人[
Hashimoto等人[
RNN相比于前馈网络更适合处理序列化输入, 但RNN也存在着以下两个缺点:(1)在网络训练时, RNN容易出现梯度消失、梯度爆炸的问题, 因此, 传统RNN在实际中很难处理长期依赖, 这一点在LSTM网络中有所改进; (2)由于RNN的内部结构复杂, 网络训练周期较长, 而CNN结构相对简单, 主要包括前置的卷积层和后置的全连接层, 训练更快速.
(2) 基于CNN模型的实体关系抽取方法
CNN的基本结构包括两层:其一为特征提取层, 每个神经元的输入与前一层的局部接受域相连, 并提取该局部的特征; 其二是特征映射层, 网络的每个计算层由多个特征映射组成, 每个特征映射是一个平面, 平面上所有神经元的权值相等, 减少了网络中自由参数的个数.由于同一特征映射面上的神经元权值相同, 所以CNN网络可以并行学习.
Zeng等人[
基于DNN的关系抽取框架
Relationship extraction frameworkbased on convolutional deep neural network
Xu等人[
Santos等人[
Vu等人[
Zeng等人虽然使用了位置向量来表示指定词与目标实体间的相对距离, 但是位置编码不足以完全捕获指定词与目标实体的关系以及它们可能对目标关系的影响.由此, Wang等人[
(3) 基于LSTM模型的实体关系抽取方法
由于梯度消失、梯度爆炸的问题, 传统的RNN在实际中很难处理长期依赖, 后面时间的节点对于前面时间的节点感知力下降.而LSTM网络通过3个门控操作及细胞状态解决了这些问题, 能够从语料中学习到长期依赖关系.
Yan等人[
基于LSTM及最短依存路径的关系抽取方法
Relationship extraction method based on LSTM and shortest dependency path
Thien等人[
为避免Yan等人提出的模型需要从NLP预处理工具中提取附加特征带来的错误传播问题, Li等人[
基于Yan等人的工作, Cai等人[
然而, 流水线方法存在着以下几个缺点.
1) 错误传播:实体识别模块的错误会影响到接下来的关系分类性能;
2) 忽视了两个子任务之间存在的关系:丢失信息, 影响抽取效果;
3) 产生冗余信息:由于对识别出来的实体进行两两配对, 然后再进行关系分类, 那些没有关系的实体对就会带来多余信息, 提升错误率.
相比于流水线方法, 联合学习[
联合学习方法通过实体识别和关系分类联合模型, 直接得到存在关系的实体三元组.因在联合学习方法中建模的对象不同, 联合学习方法又可以分为参数共享方法和序列标注方法:参数共享方法分别对实体和关系进行建模, 而序列标注方法则是直接对实体-关系三元组进行建模.下面分别对这两种方法进行说明.
(1) 基于参数共享的实体关系抽取方法
针对流水线方法中存在的错误累积传播问题和忽视两个子任务间关系依赖的问题, 基于参数共享的实体关系抽取方法被提出.在此方法中, 实体识别子任务和关系抽取子任务通过共享联合模型的编码层来进行联合学习, 通过共享编码层, 在训练时, 两个子任务都会通过后向传播算法更新编码层的共享参数, 以此来实现两个子任务之间的相互依赖, 最终找到全局任务的最佳参数, 实现性能更佳的实体关系抽取系统.在联合学习模型中, 输入的句子在通过共享的编码层后, 在解码层会首先进行实体识别子任务, 再利用实体识别的结果, 并对存在关系的实体对进行关系分类, 最终输出实体-关系三元组.
Miwa等人[
基于参数共享方法的关系抽取模型图
Relational extraction model diagram based on parameter sharing method
Li等人[
Katiyar等人[
其中, Miwa等人[
(2) 基于序列标注的实体关系抽取方法
基于参数共享的实体关系抽取方法, 改善了传统流水线方法中存在的错误累积传播问题和忽视两个子任务间关系依赖的问题.但因其在训练时还是需要先进行命名实体识别子任务, 再根据实体预测信息对实体进行两两匹配, 最后进行关系分类子任务, 因其在模型实现过程中分开完成了命名实体识别和关系分类这两个子任务, 仍然会产生没有关系的实体这种冗余信息.为了解决这个问题, 基于新序列标注方法的实体、关系联合抽取方法被提出.
Zheng等人[
新序列标注方法模型图
New sequence annotation method model diagram
联合学习方法包括基于参数共享的实体关系抽取方法和基于新序列标注的实体关系抽取方法:前者很好地改善了流水线方法中存在的错误累积传播问题和忽视两个子任务间关系依赖的问题; 而后者不仅解决了这两个问题, 还解决了流水线方法中存在的冗余实体的问题.但这两种方法对于现今有监督领域存在的重叠实体关系识别问题, 并未能给出相关的解决方案.
基于有监督学习的经典方法严重依赖于词性标注、句法解析等自然语言处理标注工具中提供的分类特征, 而自然语言处理标注工具中往往存在大量错误, 这些错误会在关系抽取系统中不断传播放大, 最终影响关系抽取的效果.而基于深度学习的有监督方法可以在神经网络模型中自动学习特征, 将低层特征进行组合, 形成更加抽象的高层特征, 用来寻找数据的分布式特征表示, 能够避免人工特征选择等步骤, 减少并改善特征抽取过程中的误差积累问题.
流水线和联合方法是有监督实体关系抽取领域主流的两个派系, 这两个派系的实体关系抽取现今衍生出多种不同的抽取方法, 其抽取方法的核心公式见
有监督实体关系抽取核心公式
Supervised entity relationship extraction core formula
类别 | 序号 | 方法名称 | 核心公式 | 公式类型 |
Pipeline | 1 | Hashimoto, 2013[ |
分类 | |
2 | CR-CNN[ |
目标函数 | ||
3 | SDP-LSTM[ |
目标函数 | ||
4 | Bi-LSTM-RNN[ |
分类 | ||
Joint | 1 | Bi-LSTM+Bi-TreeLSTM[ |
分类 | |
2 | Bi-LSTM+Attention[ |
分类 | ||
3 | Bi-LSTM+CNN[ |
分类 | ||
4 | End-to-End+序列标注[ |
{ |
序列标注方法 |
面临大量无标签数据时, 有监督的关系抽取消耗大量人力, 显得力不从心.因此, 远程监督实体关系抽取应运而生.Mintz[
基于远程监督的实体关系抽取框架的演化流程
Evolutionary process of entity relationship extraction framework based on distantsupervision
经典的实体关系抽取在提取特征时使用NLP工具, 会导致误差逐层传播, 影响关系抽取效果.深度学习中的PCNN方法有效解决了特征提取误差传播的问题.而对于远程监督中错误标签引入噪声的问题, 本模块采用多示例和注意力两种机制来缓解噪声问题.以下是基于PCNN及其扩展模型的实体关系抽取过程.
(1) 基于PCNN和多示例(MIL)的实体关系抽取
Zeng[
a) 示例语句编码:词向量、位置向量共同组成词语表示向量;
b) 卷积层:卷积部分是采用了常见的针对文本的卷积核设计, 单向滑动;
c) 三段池化与最终关系分类:在池化层, 是按照分段进行Max Pooling的, 而PCNN的P是Piecewise, 将句子按照两个实体进行分割, 分割得到3段, 将这3段分别进行Max Pooling.最后, 使用一个Softmax分类器进行类别判断.
PCNN结合多实例的方法虽然优化了传统远程监督的效果, 但多实例实际上是给包打标签而不是给语句打标签, 即从包含实体对的所有语句中只选择了一个语句, 这必然导致丢失大量有用的句子信息.
(2) 基于PCNN和注意力机制(ATT)的实体关系抽取
Zeng的多示例方法只用了包中一条语句信息, 这就在一定程度上丢失了很多信息.针对此问题, Lin[
a) 包中示例分类:将实体对作为包, 含实体对的句子作为包中示例;
b) 示例语句编码(句子特征提取):句子分词, 将句子词语和实体转化为稠密实数向量, 然后利用卷积、池化和非线性转换等操作构建起对应的句向量.句向量编码过程如
句向量构建过程
Construction process of sentence vector
c) 给句子加入注意力机制:给不同的句子赋予不同的权重
添加注意力机制的句子包向量生成过程
Generation process ofsentence package vector added attention mechanism
Attention机制虽与多示例方法都是减弱错误标签带来的噪声问题, 但多示例只用了包中一条语句信息, 而Attention机制综合利用了包中所有示例语句信息, 更好地提升了远程监督中关系抽取的效果.
(3) 基于PCNN、注意力机制和实体表示信息的实体关系抽取
目前的远程监督关系抽取都集中在探索句子的语义信息层次上, 忽略了实体本身的描述信息对关系抽取效果的影响.对此, Ji在文献[
a) PCNN模块:用PCNN提取句子特征, 每个实体对对应一个包, 用句子级别注意力机制给包中每个句子分配一个权重, 综合利用包中所有句子的信息;
b) 提取实体信息:从Freebase和Wikipedia页面中提取实体描述以补充实体关系提取的背景知识, 用一个传统的CNN模型(一个卷积层和一个最大池化层)从实体描述中提取特征.背景知识不仅为预测关系提供了更多信息, 而且为注意力机制模块带来了更好的实体表示;
c) 特征融合:用交叉熵最小化目标函数, 目标函数由句子级别注意力机制和实体信息共同决定.
本文实际检测到:当前远程监督关系抽取模型如果在没有实体背景信息的情况下, 其在抽取某些实体对关系时效果不佳.针对此问题, 作者提出使用实体表示信息丰富其背景知识, 以便更好地预测关系.实验表明在前人模型的基础上加入此创新点, 均明显地提升了当前模型的效果.
传统的远程监督方法在提取特征时采用NLP工具包, 加重了错误传播、错误积累的问题, 所以He等人[
基于LSTM的远程监督实体关系抽取框架
Distantsupervision entity relationship extraction framework based on LSTM
a) LSTM网络抽取实体对方向性信息(
b) CNN网络提取句子整体信息(
c) 特征融合(
本文提出的SE-LSTM网络结合多示例的方法, 其可以在不需要任何NLP工具包的帮助下自动地抽取特征, 并且通过两个LSTM提取实体对的方向性信息.实验表明, 该方法大大地提升了关系抽取的准确率.
现有的远程监督关系抽取模型通常只能在某一特定领域进行关系抽取工作, 并且将实体抽取和关系抽取两项工作分开进行, 分开进行的方式会导致错误的累积传播, 不易优化扩展模型.针对此问题, Ren在文献[
a) 数据预处理:在训练语料上运行文本分割算法, 得到候选实体; 给同一句话的两个候选实体构建关系, 用三元组表示; 最后分析文本, 抽取文本特征;
b) 联合训练实体和关系向量空间:将候选实体、候选关系、文本特征等嵌入到关系空间以及实体空间, 并对两者进行联合建模;
c) 对实体类型和关系类型进行推理预测.
COTYPE模型与PCNN等单模型相比不仅可以扩展到不同领域, 而且通过把实体抽取和关系抽取两个任务结合, 较好地减弱了错误的累积传播.实验结果表示, 其明显提升了当时State-of-the-art的效果.
一般来说, 深层神经网络能抽取更深的语义特征, 所以Huang[
经典的远程监督方法是在解决远程监督中强假设条件造成大量错误标签的问题, 而深度学习方法主要是是在解决特征提取中误差传播问题.
远程监督的提出, 是因为在开放域中存在大量无规则非结构化数据, 人工标注虽能使标注的准确率较高, 但是时间和人力消耗巨大, 在面对大量数据集时显得不切实际.因此, 远程监督实现一种数据集自动对齐远程知识库进行关系提取的方法, 可进行自动标注数据.但由于其强假设条件造成大量错误标签问题, 之后, 经典的远程监督的改进都是在改进处理错误标签的算法.
深度学习的提出, 是因数据特征构造过程依赖于NER等NLP工具, 中间过程出错会造成错误传播问题.且现今基于深度学习的远程监督实体关系抽取框架已包含经典方法中对错误标签的探讨解决, 因此可以认为现今的远程监督关系抽取框架是基于传统方法的扩展优化.
有监督的实体关系抽取依靠人工标注的方法得到数据集, 数据集准确率、纯度较高, 训练出的关系抽取模型效果较好, 具有很好的实验价值.但其人工标注数据集的方法耗费大量人力成本, 且标注数据的数量有限、扩展性差、领域性强, 导致构造的关系抽取模型对人工标注的数据具有依赖性, 不利于模型的跨领域泛化能力, 领域迁移性较差.
远程监督在面对大量无标签数据时, 相较于有监督实体关系抽取具有明显优势.人力标注大量无标签数据显得不切实际, 因此远程监督采用对齐远程知识库的方式自动标注数据, 极大地减少了人力的损耗且领域迁移性较强.但远程监督自动标注得到的数据准确度较低, 因此在训练模型时, 错误标签的误差会逐层传播, 最终影响整个模型的效果.因此, 现今的远程监督实体关系抽取模型的效果普遍比有监督模型抽取效果效果差.基于深度学习的有监督和远程监督实体关系抽取效果对比可见
基于深度学习的有监督和远程监督实体关系抽取对比
Comparison of supervised and remotely supervised entity relationships based on deep learning
有监督 | 远程监督 | |
数据集标注方法 | 人工标注 | 远程对齐知识库 |
数据集特点 | 准确度高, 噪声小 | 准确度低, 噪声大 |
数据集规模 | 较小(通常情况) | 较大 |
成本 | 较高 | 较低 |
迁移性 | 较差 | 较好 |
领域性 | 较强 | 较低 |
抽取效果 | 较好 | 较差 |
现今, 基于深度学习的远程监督实体关系抽取研究点主要集中在远程监督的噪声问题和特征提取的误差传播两方面, 远程监督部分实体关系抽取核心公式为
远程监督实体关系抽取核心公式
Distant-supervised entity relationship extraction core formula
方法名称 | 创新方法 | 核心公式 | 公式类别 |
远程监督+多示例[ |
多示例单标签 | 多示例的包表示 | |
PCNNs+MIL[ |
三段池化层 | 三段池化层取值 | |
PCNN+ATT[ |
多注意力 | 注意力机制 | |
APCNNs+D[ |
添加实体描述信息 | 目标函数 | |
COTYPE[ |
实体与关系信息联合抽取 | 期望函数 | |
深度残差网络[ |
9层残差网络 | 卷积层 |
近期, 随着增强学习方法的兴起, 给予实体关系抽取又一种新的思路.有学者试图将增强学习[
两步决策过程
Two-step decision process
Qin[
生成对抗网络是实体关系提取中的新兴方法, 其通过在词向量表示阶段引入对抗性噪声并给出新的损失函数来增加模型的准确率.其主要思路是:生成器和判别器为博弈对方, 生成器拟合数据的产生过程生成模型样本, 判别器通过增加噪声样本增强模型准确率和鲁棒性, 优化目标是达到纳什均衡.
生成对抗网络是由GoodFellow等人[
生成对抗网络筛选错误标签数据的流程如
生成对抗网络筛选错误标签数据的流程
Process of filtering error tags by generative adversarial networks
a) 预训练:对生成器和鉴别器进行预训练, 得到生成器和鉴别器的参数
b) 数据划分:一次迭代(epoch)扫描远程监督训练集中所有正例集
c) 生成器训练:生成器计算包中正样本的概率分布, 其产生的高置信样本被认为是真实的正例样本, 然后根据这个概率分布进行抽样;
d) 对抗器训练:对抗器接收这些高置信度样本, 但将其视为负样本; 相反, 低置信度的样本仍被视为正样本.在这个过程中, 模型会以预训练的参数进行初始化;
e) 交替训练:对于生成的样本, 生成器使真正的概率最大; 相反, 对抗器使这个概率最小.两个网络交替进行训练, 更新
对比实验结果表明, PCNN+ATT+DSGAN模型较PCNN+ATT而言, AUC和
实体关系抽取是信息抽取的核心任务[
深度学习实体关系抽取在生物医药领域中的应用
Deep learning entity relationship extraction usedin biomedicine field
领域 | 深度学习方法 | 提出年份 | 解决问题 |
生物医药 | CNN[ |
2016 | 首次应用深度模型, 对临床文本等碎片化内容进行关系抽取 |
最大熵+CNN[ |
2017 | 抽取化学药物与疾病之间的关系 | |
Bi-LSTM-RNN[ |
2017 | 抽取药物与疾病实体之间的关系、细菌与位置实体之间的关系 | |
Bi-LSTM+ATT[ |
2018 | 实体识别和不良药物事件提取 | |
SVM+CNN+RNN[ |
2018 | 抽取生物医学文献中化学品和蛋白质之间的关系 | |
Bi-LSTM[ |
2018 | 抽取疾病与治疗药品间关系 | |
CNN+LSTM[ |
2018 | 抽取化学药物与疾病之间的关系 |
从文本中提取生物医学实体及其关系, 对生物医学研究具有重要的应用价值.以前的工作主要是利用基于特征的流水线模型来处理这个任务, 当采用基于特征的模型时, 需要进行大量特征工程工作, 耗费时间且抽取效果参差不齐.因此, 学者们试图将深度学习的方法引入生物医药领域的关系抽取中来提升效果.
从生物医疗领域的科研文章、医疗报告、电子医疗记录抽取相关信息, 已经成为了当前生物医药领域的研究热点.2016年6月, Sahu等人[
2017年1月, Gu等人[
Peng等人在2018年BioCreative VI Workshop上发表的文献[
Li[
药物引起的不良反应是一个潜在的危险问题, 可能导致患者死亡和发病.提取药物不良事件以及挖掘药物与疾病间关系, 是生物医学研究中的重要问题.2018年1月, Ramamoorthy等人[
Chikka等人[
Nguyen[
近年来, 用作深度学习关系抽取实验评估的标准数据集主要有SemEval-2010 Task 8公开数据集、ACE2004实验语料、NYT-FB数据集等.
(一)有监督领域
有监督领域的实体关系抽取主要采用MUC关系抽取任务数据集、ACE04、ACE05、SemEval-2010 Task 8公开数据集, 部分论文采用MPQA 2.0语料库和BioNLP-ST 2016的BB任务数据集.有监督方面评测标准主要以
● MUC关系抽取任务数据集:MUC-7包含五大评测任务:命名实体识别、指代消解、模版元素填充、模版关系确定和场景模版填充.其中, 关系抽取首次作为一个独立的评测任务被提出来.MUC-7的数据语料主要是取自新闻语料, 主要是飞机失事事件报道和航天器发射事件报道.MUC会议停开以后, ACE会议也将关系抽取任务作为会议的一个子任务;
● ACE关系抽取任务数据集:ACE会议从2002年~2007年一直将关系抽取任务作为一个子任务, 其中获得广泛认可的是ACE04/ACE05.其中, ACE04语料库来源于语言数据联盟(linguistic data consortium, 简称LDC), 分成广播新闻(BNEWS)和新闻专线(NWIRE)两个部分, 总共包含451个文档和5 702个关系实例.ACE04提供了丰富的标注信息, 从而为信息抽取中的实体识别、指代消解和关系抽取凳子任务提供基准(benchmark)的训练和测试语料库.而ACE05作为ACE04的扩充, 对ACE04数据集进行了适当的修改与完善;
● SemEval-2010 Task 8数据集:SemEval是由Senseval演变而来的语义评测.Senseval是由ACL-SIGLEX组织的国际权威的词义消歧评测, 但由于Senseval中除词义消歧外有关语义分析的任务越来越多, 之后, Senseval委员会决定把评测名称改为国际语义评测(SemEval).SemEval-2010 Task 8数据集是2010年SemEval语义评测的子任务, 构建于2009年, 此任务用于名词间多种语义关系的分类.数据集根据预设定的9种互不相容关系从各大数据源收集而来, 数据源包括WordNet, Wikipedia data, Google
● MPQA 2.0语料库:包含来自各种新闻源的新闻文章和社论, 数据集中共有482个文档, 包含9 471个带有短语级别注释的句子.数据集中包含观点实体的黄金标准注释, 如观点表达、观点目标和观点持有者; 还包含观点关系的注释, 如观点持有者和观点表达之间的IS-FROM关系、观点目标和观点表达之间的IS-ABOUT关系;
● BioNLP-ST 2016的BB任务:此任务是针对细菌/位置实体抽取和两者间Lives_In关系抽取而设立的一个标准竞赛, 数据集由来自PubMed的161个科学论文摘要组成, 数据集中包含3种类型的实体:细菌、栖息地和地理位置; 包含一种关系:Lives_In, 指由细菌-栖息地构成的Lives_In关系或由细菌-地理位置构成的Lives_In关系.
(二)远程监督领域
远程监督领域的实体关系抽取主要采用NYT-FB数据集.这个数据集是由Freebase知识库对其纽约时报的文本获得的数据集.训练数据为知识库对其2005年、2006年文本获得的, 测试库数据为知识库对其2007年文本获得的.NYT-FB数据集中共有53种关系, 共计695 059条数据(其中训练集包含522 611条训练语句, 训练数据中有近80%的句子的标签为NA, 测试集包含172 448条测试语句), 通过结合FreeBase对NYT语料做实体链接、关系对齐等操作进行标注, 最终得到一个被广泛使用的关系抽取数据集.
关系抽取领域有3项基本评价指标:准确率(precision)、召回率(recall)和
(一)准确率
准确率是从查准率的角度对实体关系抽取效果进行评估, 其计算公式为
(二)召回率
召回率是从查全率的角度对抽取效果进行评估, 其计算公式为
(三)
对与关系抽取来说, 准确率和召回率是相互影响的, 二者存在互补关系, 因此,
不同模型的数据集及其评测标准见
不同模型的数据集及其评测标准
Different models of data sets and their evaluation criteria
关系抽取方法 | 序号 | Model | 数据集 | 评测指标 | 评测值 | 发表年份 | 发表会议 |
流水线 | 1 | MV-RNN(POS, WordNet, NER)[ |
SemEval-2010 Task 8 | 82.4 | 2012 | EMNLP | |
2 | RNN[ |
SemEval-2010 Task 8 | 79.4 | 2013 | ACL | ||
3 | Convolutional DNN[ |
SemEval-2010 Task 8 | 82.7 | 2014 | COLING | ||
4 | SDT-LSTM[ |
SemEval-2010 Task 8 | 83.7 | 2015 | EMNLP | ||
5 | CR-CNN[ |
SemEval-2010 Task 8 | 84.1 | 2015 | ACL | ||
6 | Vote-BIDIRECT[ |
ACE05 | 84.1 | 2015 | Computer Science | ||
7 | Dependency paths from the object to subject[ |
SemEval-2010 Task 8 | 85.4 | 2015 | Computer Science | ||
8 | ER-CNN + R-RNN[ |
SemEval-2010 Task 8 | 84.9 | 2016 | NAACL | ||
9 | Multi-Level attention CNNs[ |
SemEval-2010Task 8 | 88.0 | 2016 | ACL | ||
10 | Bi-LSTM-RNN[ |
SemEval-2010Task 8 | 83.1 | 2016 | ACL | ||
联合学习 | 11 | Bi-LSTM+Bi-TreeLSTM[ |
ACE05 | 55.6 | 2016 | ACL | |
12 | LSTM[ |
MPQA 2.0语料库 | 54.98(IS_ABOUT) 58.22(IS_FROM) | 2016 | ACL | ||
13 | Bi-LSTM+ Bi-TreeLSTM[ |
BioNLP-ST 2016的BB任务数据集 | 28.5 | 2017 | PAKDD | ||
14 | Bi-LSTM+Attention[ |
ACE 2005 | 55.9 | 2017 | ACL | ||
15 | Novel tagging scheme[ |
NYT | 52.0 | 2017 | ACL | ||
远程监督 | 16 | PCNNs+MIL[ |
NYT-FB | Precision (Top100) | 86.0 | 2015 | EMNLP |
17 | APCNNs[ |
NYT-FB | Precision (Top100) | 87.0 | 2016 | ACL | |
18 | APCNNs+D[ |
NYT-FB | Precision (Top100) | 87.0 | 2017 | AAAI | |
19 | DMN[ |
NYT-FB | Precision (Top100) | 89.0 | 2017 | IJCAI | |
20 | APCNN+soft_label[ |
NYT-FB | Precision (Top100) | 84.0 | 2017 | ACL | |
21 | JointD+KATT[ |
NYT-FB | Precision (Top100) | 80.6 | 2018 | AAAI | |
22 | CNN+RL[ |
NYT-FB | 42.0 | 2018 | AAAI | ||
23 | MIMLCNN[ |
NYT-FB | Precision (Top100) | 69.0 | 2016 | COLING | |
24 | RNN-Adv[ |
NYT-FB | 38.2 | 2017 | ACL | ||
25 | ResCNN-9[ |
NYT-FB | Precision (Top50) | 88.0 | 2017 | ACL |
参考常耀成[
数据集描述与下载链接
Dataset description and download link
数据集 | 简述 | URL |
SemEval-2010 Task 8 | 包含10 717条数据(训练集8 000条, 测试集2 717条); 共包含9种互不相容的关系, 如因果关系、包含关系等 | https://www.researchgate.net/publication/271452073_SemEval-2010_task_8]]> |
MPQA 2.0 corpus | 来自各种新闻源的新闻文章和社论, 数据集中共有482篇文章, 9 471条句子 | http://mpqa.cs.pitt.edu/corpora/mpqa_corpus/]]> |
ACE05 | 7种实体类型和6种实体关系类型 | https://www.nist.gov/speech/tests/ace/ace05]]> |
openIE | 50亿网页数据, 提取开放域关系三元组 | https://github.com/dair-iitd/OpenIE-standalone]]> |
ACE04 | 7种实体类型和7种实体关系类型 | https://www.nist.gov/speech/tests/ace/ace04]]> |
NYT | 53种关系, 共计695 059条数据(其中训练集包含522 611条训练语句, 测试集包含172 448条测试语句) | https://github.com/shanzhenren/CoType]]> |
目前, 基于深度学习的实体关系抽取已经取得了极大成功, 但依旧值得学者们不断探索.通过对现有实体关系抽取研究工作进行总结, 未来可从以下几个方面展开相关研究.
(1) 重叠实体关系识别
目前, 就重叠实体关系识别这一问题, 已有的实体关系识别模型还没有给出相应的解决方法.尽管Zheng[
(2) 跨句子级别关系抽取
现今, 关系抽取任务集中在对一句话内识别出的实体对进行关系分类, 而按照自然语言的习惯, 实体对分别位于不同句子中的情况也十分常见.现有的指代消解任务可以通过指代对象识别和指代对象中心词抽取有效影响多种自然语言处理任务系统的性能, 但其存在依赖人工特征强、精确度不够高的问题.因此, 融合并改进指代消解和关系抽取模型, 是未来解决跨句子级别关系抽取任务中可以研究探讨的一种方案.
此外, Peng等人[
(3) 关系类型OOV问题
现今, 完成关系抽取任务的主流方法中, 均没有有效地解决关系类型OOV(out of vocabulary)问题.对于没出现在训练集中的关系类型, 已有的模型框架无法准确地预测出实体对所属的正确关系类型.在SemEval-2010的评测任务8中, 因考虑到句子实例中实体对的先后顺序问题, 引入了Other类对不属于已有关系类型的实例进行描述, 然而这只是减少了存在关系的实体对的损失, 提升了模型判断关系提及的能力, 对Other类中实体对的关系却难以定义, 关系模糊, 需要人工干预和判断.因此, 关系类型OOV问题也是未来亟待解决的问题之一.
(4) 解决远程监督的错误标签问题
远程监督中的假设过于肯定, 难免引入大量的噪声数据.为缓解错误标注的问题, 目前主流的方式是:(a)利用多示例学习方法对测试包打标签; (b)采用Attention机制对不同置信度的句子赋予不同的权值.但这两种方法都不可避免地会将一些不具有某个关系的句子作为这个关系的训练语句:在多示例学习方法的情况下, 若一个包中全是负例(包中没有一个句子的关系是实体对对齐知识库得到的关系), 即使取出概率最大的语句作为这个包的训练语句, 其仍是噪声语句; 而在Attention机制下, 虽将并不代表实体对关系的语句给予较小的权重, 但本质上仍是将其作为正例放入训练集中, 仍是会引入噪声.Qin[
(5) 远程监督领域错误传播问题
现今, 实体关系抽取的典型模型是PCNN+ATT, 但其主要利用的是句子的语义信息.虽已有论文利用句子的语法信息[
Golshan PN, Dashti HR, Azizi S. A study of recent contributions on information extraction. arXiv preprint arXiv: 1803.05667, 2018.
Xu J, Zhang ZX, Wu ZX. Review on techniques of entity relation extraction. New Technology of Library and Information Service, 2008, 24(8):18-23(in Chinese with English abstract).
徐健, 张智雄, 吴振新.实体关系抽取的技术方法综述.现代图书情报技术, 2008, 24(8):18-23.
Gan LX, Wan CX, Liu DX, Zhong Q, Jiang TJ. Chinese entity relationship extraction based on syntactic and semantic features. Journal of Computer Research and Development, 2016, 53(2):284-302(in Chinese with English abstract).
甘丽新, 万常选, 刘德喜, 钟青, 江腾蛟.基于句法语义特征的中文实体关系抽取.计算机研究与发展, 2016, 53(2):284-302.
Liu Q, Li Y, Duan H, Liu Y, Qin ZG. A survey of knowledge mapping construction techniques. Journal of Computer Research and Development, 2016, 53(3):582-600(in Chinese with English abstract).
刘峤, 李杨, 段宏, 刘瑶, 秦志光.知识图谱构建技术综述.计算机研究与发展, 2016, 53(3):582-600.
Ye H, Chao W, Luo Z, Li Z. Jointly extracting relations with class ties via effective deep ranking. arXiv: preprint arXiv: 1612.07602, 2016.
Guo XY, He TT, Hu XH, Chen QJ. Chinese entity relationship extraction based on syntactic and semantic features. Journal of Chinese Information Processing, 2014, 28(6):183-189(in Chinese with English abstract).
郭喜跃, 何婷婷, 胡小华, 陈前军.基于句法语义特征的中文实体关系抽取.中文信息学报, 2014, 28(6):183-189.
Kumar S. A survey of deep learning methods for relation extraction. arXiv: arXiv preprint arXiv: 1705.03645, 2017.
Surdeanu M, Tibshirani J, Nallapati R, Manning CD. Multi-instance multi-label learning for relation extraction. In: Proc. of the Joint Conf. on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. 2012.455-465.
Zheng S, Hao Y, Lu D, Bao H, Xu J, Hao H, Xu B. Joint entity and relation extraction based on a hybrid neural network. Neurocomputing, 2017, 257:1-8.
Lin Y, Shen S, Liu Z, Luan H, Sun M. Neural relation extraction with selective attention over instances. In: Proc. of the Meeting of the Association for Computational Linguistics. 2016.2124-2133.
Xu Y, Mou LL, Li G, Chen YC, Peng H, Jin Z. Classifying relation via long short term memory networks along shortest dependency paths. Conf. on Empirical Methods in Natural Language Processing, 2015, 42(1):56-61.
Miwa M, Bansal M. End-to-end relation extraction using LSTMs on sequences and tree structures. In: Proc. of the Meeting of the Association for Computational Linguistics. 2016.1105-1116.
Katiyar A, Cardie C. Going out on a limb: Joint extraction of entity mentions and relations without dependency trees. In: Proc. of the Meeting of the Association for Computational Linguistics. 2017.917-928.
Mintz M, Bills S, Snow R, Jurafsky D. Distant supervision for relation extraction without labeled data. In: Proc. of the Joint Conf. of the Meeting of the ACL and the Int'l Joint Conf. on Natural Language Processing of the Afnlp. 2009.1003-1011.
Yu XK, Chen L, Guo J, Cai YY, Wu Y, Wang JC. Relationship extraction method combining clause-level remote supervision and semi-supervised integration learning. Pattern Recognition and Artificial Intelligence, 2017, 30(1):54-63(in Chinese with English abstract).
余小康, 陈岭, 郭敬, 蔡雅雅, 吴勇, 王敬昌.结合从句级远程监督与半监督集成学习的关系抽取方法.模式识别与人工智能, 2017, 30(1):54-63.
Yao L, Riedel S, Mccallum A. Unsupervised relation discovery with sense disambiguation. In: Proc. of the Annual Meeting of the Association for Computational Linguistics. 2012.
https://arxiv.org/abs/1704.00217]]>
Zhang D, Wang D. Relation classification via recurrent neural network. arXiv preprint arXiv: 1508.01006, 2015.
Hashimoto K, Miwa M, Tsuruoka Y, Chikayama T. Simple customization of recursive neural networks for semantic relation classification. In: Proc. of the 2013 Conf. on Empirical Methods in Natural Language Processing. 2013.18-21.
Zeng D, Liu K, Lai S, Zhou G, Zhao J. Relation classification via convolutional deep neural network. In: Proc. of the 25th Int'l Conf. on Computational Linguistics: Technical Papers (COLING 2014). 2014.2335-2344.
Santos CND, Xiang B, Zhou B. Classifying relations by ranking with convolutional neural networks. Computer Science, 2015, 86:132-137.
Nguyen TH, Grishman R. Combining neural networks and log-linear models to improve relation extraction. arXiv preprint arXiv: 1511.05926, 2015.
Miyato T, Dai AM, Goodfellow I. Adversarial training methods for semi-supervised text classification. arXiv preprint arXiv: 1605.07725, 2016.
Wu Y, Bamman D, Russell S. Adversarial training for relation extraction. In: Proc. of the Conf. on Empirical Methods in Natural Language Processing. 2017.1778-1783.
He Z, Chen W, Li Z, Zhang M, Zhang W, Zhang M. SEE: Syntax-aware entity embedding for neural relation extraction. arXiv preprint arXiv: 1801.03603, 2018.
Chikka VR, Karlapalem K. A hybrid deep learning approach for medical relation extraction. arXiv preprint arXiv: 1806.11189, 2018.
Wen J, Sun X, Ren X, Su Q. Structure regularized neural network for entity relation classification for chinese literature text. arXiv preprint arXiv: 1803.05662, 2018.
Adilova L, Giesselbach S, Rüping S. Making efficient use of a domain expert's time in relation extraction. arXiv preprint arXiv: 180704687, 2018.
Zhou GD, Su J, Zhang J, Zhang M. Exploring various knowledge in relation extraction. In: Proc. of the Conf. on Meeting of the Association for Computational Linguistics (ACL 2005). University of Michigan, 2002.419-444.
Huang X, You HL, Yu Y. A Survey of Research on Relationship Extraction Technology. New Technology of Library and Information Service, 2013, 29(11):30-39(in Chinese with English abstract).
黄勋, 游宏梁, 于洋.关系抽取技术研究综述.现代图书情报技术, 2013, 29(11):30-39.
Liu JW, Liu Y, Luo XL. Semi-supervised Learning Method. Chinese Journal of Computers, 2015, 38(8):1592-1617(in Chinese with English abstract).
刘建伟, 刘媛, 罗雄麟.半监督学习方法.计算机学报, 2015, 38(8):1592-1617.
Brin S. Extracting patterns and relations from the World Wide Web. In: Proc. of the Int'l Workshop on the World Wide Web and Databases. 1998.172-183.
Kumlien MCJ. Constructing viological knowledge bases by extraction information from text sources. In: Proc. of the 7th Int'l Conf. on Intelligent Systems for Molecular Biology. AAAI Press, 1999.77-86.
Hasegawa T, Sekine S, Grishman R. Discovering relations among named entities from large corpora. In: Proc. of the Meeting on Association for Computational Linguistics. 2004.415.
Jiao LC, Yang SY, Liu F, Wang SG, Feng ZX. Neural Network Seventy Years:Retrospect and Prospect. Chinese Journal of Computers, 2016, 39(8):1697-1716(in Chinese with English abstract).
焦李成, 杨淑媛, 刘芳, 王士刚, 冯志玺.神经网络七十年:回顾与展望.计算机学报, 2016, 39(8):1697-1716.
Zhou FY, Jin LP, Dong J. A survey of Convolutional Neural Networks. Chinese Journal of Computers, 2017, 40(6):1229-1251(in Chinese with English abstract).
周飞燕, 金林鹏, 董军.卷积神经网络研究综述.计算机学报, 2017, 40(6):1229-1251.
Zeng D, Liu K, Chen Y, Zhao J. Distant supervision for relation extraction via piecewise convolutional neural networks. In: Proc. of the Conf. on Empirical Methods in Natural Language Processing. 2015.1753-1762.
Ji GL, Liu K, He SZ, Zhao J. Distant supervision for relation extraction with sentence-level attention and entity descriptions. In: Proc. of the AAAI. 2017.3060-3066.
https://arxiv.org/abs/1610.08763]]>
Huang YY, Wang WY. Deep residual learning for weakly-supervised relation extraction. arXiv preprint arXiv: 1707.08866, 2017.
Golshan PN, Dashti HAR, Azizi S, Safari L. A study of recent contributions on information extraction. arXiv preprint arXiv: 1803.05667, 2018.
Wang LY. Entity relationship extraction based on deep convolutional neural network[MS. Thesis]. Taiyuan: Taiyuan University of Technology, 2017(in Chinese).
王林玉.基于深度卷积神经网络的实体关系抽取[硕士学位论文].太原: 太原理工大学, 2017.
Yang JF, Yu QB, Guan Y, Jiang ZP. A survey of research on electronic medical record named entity recognition and entity relationship extraction. Acta Automatica Sinica, 2014, 40(8):1537-1562(in Chinese with English abstract).
杨锦锋, 于秋滨, 关毅, 蒋志鹏.电子病历命名实体识别和实体关系抽取研究综述.自动化学报, 2014, 40(8):1537-1562.
Qin B, Liu AA, Liu T. Unguided Chinese open entity relationship extraction. Journal of Computer Research and Development, 2015, 52(5):1029-1035(in Chinese with English abstract).
秦兵, 刘安安, 刘挺.无指导的中文开放式实体关系抽取.计算机研究与发展, 2015, 52(5):1029-1035.
Chinchor N, Marsch E. MUC-7 information extraction task definition. In: Proc. of the 7th Message Understanding Conf. Appendices, 1998.359-367.
Socher R, Huval B, Manning CD, Ng AY. Semantic compositionality through recursive matrix-vector spaces. In: Proc. of the Joint Conf. on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. 2012.1201-1211.
Xu K, Feng Y, Huang S, Zhao D. Semantic relation classification via convolutional neural networks with simple negative sampling. Computer Science, 2015, 71:941-949.
Vu NT, Adel H, Gupta P, Schütze H. Combining recurrent and convolutional neural networks for relation classification. arXiv preprint arXiv: 1605.07333, 2016.
Wang L, Cao Z, Melo GD, Liu Z. Relation classification via multi-level attention CNNs. In: Proc. of the Meeting of the Association for Computational Linguistics. 2016.1298-1307.
Li F, Zhang M, Fu G, Qian T, Ji D. A Bi-LSTM-RNN model for relation classification using low-cost sequence features. arXiv preprint arXiv: 1608.07720, 2016.
Cai R, Zhang X, Wang H. Bidirectional recurrent convolutional neural network for relation classification. In: Proc. of the Meeting of the Association for Computational Linguistics. 2016.756-765.
Zheng S, Xu J, Bao H, Qi Z, Zhang J, Hao H, Xu B. Joint learning of entity semantics and relation pattern for relation extraction. In: Proc. of the Joint European Conf. on Machine Learning and Knowledge Discovery in Databases. Cham: Springer-Verlag, 2016.443-458.
Li F, Zhang M, Fu G, Ji D. A neural joint model for extracting bacteria and their locations. In: Proc. of the Pacific-Asia Conf. on Knowledge Discovery and Data Mining. Cham: Springer-Verlag, 2017.15-26.
Katiyar A, Cardie C. Investigating LSTMs for joint extraction of opinion entities and relations. In: Proc. of the Meeting of the Association for Computational Linguistics. 2016.919-929.
https://arxiv.org/abs/1706.05075]]>
Fei L, Zhang M, Fu G, Ji D. A neural joint model for entity and relation extraction from biomedical text. Bmc Bioinformatics. 2017, 18:198.
He D, Zhang H, Hao W, Zhang R, Chen G, Jin D, Cheng K. Distant supervised relation extraction via long short term memory networks with sentence embedding. Intelligent Data Analysis, 2017, 21:1213-1231.
Riedel S, Yao L, Mccallum A. Modeling relations and their mentions without labeled text. In: Proc. of the European Conf. on Machine Learning and Knowledge Discovery in Databases. 2010.148-163.
Liu Q, Zhai JW, Zhang ZC, Zhong S, Zhou Q, Zhang P, Xu J. An overview of deep reinforcement learning. Chinese Journal of Computers, 2018, 41(1):1-27(in Chinese with English abstract).
刘全, 翟建伟, 章宗长, 钟珊, 周倩, 章鹏, 徐进.深度强化学习综述.计算机学报, 2018, 41(1):1-27.
Feng Y, Zhang H, Hao W, Chen G. Joint extraction of entities and relations using reinforcement learning and deep learning. In: Proc. of the Comput Intell Neurosci. 2017.1-11.
Qin P, Xu W, Wang WY. Robust distant supervision relation extraction via deep reinforcement learning. arXiv preprint arXiv: 1805.09927, 2018.
Goodfellow IJ, Pouget-Abadie J, Mirza M, Xu B, Warde-Farley D, Ozair S, Courville A, Bengio Y. Generative adversarial networks. Advances in Neural Information Processing Systems, 2014, 3:2672-2680.
https://arxiv.org/abs/1605.07725]]>
Qin P, Xu W, Wang WY. DSGAN: Generative adversarial training for distant supervision relation extraction. arXiv preprint arXiv: 1805.09929, 2018.
Nickel M, Murphy K, Tresp V, Gabrilovich E. A review of relational machine learning for knowledge graphs. Proc. of the IEEE, 2015, 104: 11-33.
https://arxiv.org/abs/1609.00464]]>
Sahu SK, Anand A, Oruganty K, Gattu M. Relation extraction from clinical texts using domain invariant convolutional neural network. In: Proc. of the 15th Workshop on Biomedical Natural Language Processing, 2016.206-215.
doi:10.1093/database/bax024]]]>
Ramamoorthy S, Murugan S. An attentive sequence model for adverse drug event extraction from biomedical text. arXiv preprint arXiv: 1801.00625, 2018.
Peng Y, Rios A, Kavuluru R, Lu Z. Chemical-protein relation extraction with ensembles of SVM, CNN, and RNN models. arXiv preprint arXiv: 1802.01255, 2018.
Nguyen DQ, Verspoor K. Convolutional neural networks for chemical-disease relation extraction are improved with character- based word embeddings. arXiv preprint arXiv: 1805.10586, 2018.
Feng X, Guo J, Qin B, Liu T, Liu Y. Effective deep memory networks for distant supervised relation extraction. In: Proc. of the 26th Int'l Joint Conf. on Artificial Intelligence. 2017.4002-4008.
Liu T, Wang K, Chang B, Sui Z. A soft-label method for noise-tolerant distantly supervised relation extraction. In: Proc. of the Conf. on Empirical Methods in Natural Language Processing. 2017.1790-1795.
Han X, Liu ZY, Sun M. Neural knowledge acquisition via mutual attention between knowledge graph and text. In: Proc. of the AAAI. 2018.
Feng J, Huang M, Zhao L, Yang Y, Zhu XY. Reinforcement learning for relation classification from noisy data. In: Proc. of the AAAI. 2018.
Jiang X, Wang Q, Li P, Wang B. Relation extraction with multi-instance multi-label convolutional neural networks. In: Proc. of the COLING. 2016.1471-1480.
Chang YC, Zhang YX, Wang H, Wan HY, Xiao CJ. Features oriented survey of state-of-the-art keyphrase extraction algorithms. Ruan Jian Xue Bao/Journal of Software, 2018, 29(7):2046-2070(in Chinese with English abstract). [doi:10.13328/j.cnki.jos.005538]
常耀成, 张宇翔, 王红, 万怀宇, 肖春景.特征驱动的关键词提取算法综述.软件学报, 2018, 29(7):2046-2070. [doi:10.13328/j.cnki.jos.005538]
Peng N, Poon H, Quirk C, Toutanova K, Yih WT. Cross-sentence N-ary relation extraction with graph LSTMs. arXiv preprint arXiv: 1708.03743, 2017.
Li MY, Yang J. Open chinese entity relationship extraction method based on dependency parsing. Computer Engineering, 2016, 42(6):201-207(in Chinese with English abstract).
李明耀, 杨静.基于依存分析的开放式中文实体关系抽取方法.计算机工程, 2016, 42(6):201-207.