基于语义先验知识与类型嵌入的复杂实体识别
作者:
作者单位:

作者简介:

姜小波(1972-),男,博士,副教授,主要研究领域为智能人机交互,自然语言处理,知识图谱.;何昆(1995-),男,硕士,主要研究领域为自然语言处理,信息抽取,知识图谱.;阎广瑜(1999-),男,硕士,主要研究领域为自然语言处理,信息抽取,数据挖掘.

通讯作者:

何昆,E-mail:hk15616172426@163.com

中图分类号:

TP18

基金项目:

国家自然科学基金(U1801262); 广东省科技计划(2019B010154003)


Complex Entity Recognition Based on Prior Semantic Knowledge and Type Embedding
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    实体识别是信息抽取的关键任务. 随着信息抽取技术的发展, 研究人员从简单实体的识别转向复杂实体的识别. 然而, 复杂实体缺乏明显的特征且在句法结构与词性组成上更加复杂多样, 给实体识别带来了巨大挑战. 此外, 现有模型广泛采用基于跨度的方法来识别嵌套实体, 在实体边界检测方面呈现出模糊化, 影响识别的性能. 针对这些问题和挑战, 提出了一种基于语义先验知识与类型嵌入的实体识别模型GIA-2DPE. 该模型使用实体类别的关键词序列作为语义先验知识来提升对实体的认知, 并通过类型嵌入捕获不同实体类型的潜在特征, 然后通过门控交互注意力机制将先验知识与类型特征相融合以辅助复杂实体识别. 另外, 模型通过2D概率编码来预测实体边界, 并利用边界特征和上下文特征来增强对边界的精准检测, 从而提升嵌套实体的识别效果. 在7个英文数据集和2个中文数据集上进行了广泛实验. 结果表明, GIA-2DPE超越了目前最先进的模型; 并且在ScienceIE数据集的实体识别任务中, 相对基线F1分数取得了最高10.4%的提升.

    Abstract:

    Entity recognition is a key task of information extraction. With the development of information extraction technology, researchers turn the research direction from the recognition of simple entities to the recognition of complex ones. Complex entities usually have no explicit features, and they are more complicated in syntactic constructions and parts of speech, which makes the recognition of complex entities a great challenge. In addition, existing models widely use span-based methods to identify nested entities. As a result, they always have an ambiguity in the detection of entity boundaries, which affects recognition performance. In response to the above challenge and problem, this study proposes an entity recognition model GIA-2DPE based on prior semantic knowledge and type embedding. The model uses keyword sequences of entity categories as prior semantic knowledge to improve the cognition of entities, utilizes type embedding to capture potential features of different entity types, and then combines prior knowledge with entity-type features through the gated interactive attention mechanism to assist in the recognition of complex entities. Moreover, the model uses 2D probability encoding to predict entity boundaries and combines boundary features and contextual features to enhance accurate boundary detection, thereby improving the performance of nested entity recognition. This study conducts extensive experiments on seven English datasets and two Chinese datasets. The results show that GIA-2DPE outperforms state-of-the-art models and achieves a 10.4% F1 boost compared with the baseline in entity recognition tasks on the ScienceIE dataset.

    参考文献
    相似文献
    引证文献
引用本文

姜小波,何昆,阎广瑜.基于语义先验知识与类型嵌入的复杂实体识别.软件学报,2023,34(12):5649-5669

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2021-12-02
  • 最后修改日期:2022-02-25
  • 录用日期:
  • 在线发布日期: 2023-02-15
  • 出版日期:
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号