中文文本蕴含类型及语块识别方法研究
作者:
作者单位:

作者简介:

于东(1982-),男,博士,副教授,主要研究领域为自然语言处理,人工智能.
金天华(1995-),女,硕士,主要研究领域为自然语言处理,人工智能.
谢婉莹(1997-),女,学士,主要研究领域为自然语言处理,人工智能.
张艺(1997-),女,学士,主要研究领域为自然语言处理,人工智能.
荀恩东(1967-),男,博士,教授,博士生导师,CCF高级会员,主要研究领域为自然语言处理,人工智能.

通讯作者:

荀恩东,E-mail:edxun@126.com

中图分类号:

基金项目:

国家重点研发计划(2018YFB1005105)


Recognition Method Based on Deep Learning for Chinese Textual Entailment Chunks and Labels
Author:
Affiliation:

Fund Project:

National Key Research and Development Program of China (2018YFB1005105)

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    文本蕴含识别(RTE)是判断两个句子语义是否具有蕴含关系的任务.近年来英文蕴含识别研究取得了较大发展,但主要是以类型判断为主,在数据中精确定位蕴含语块的研究比较少,蕴含类型识别的解释性较低.从中文文本蕴含识别(CNLI)数据中挑选12 000个中文蕴含句对,人工标注引起蕴含现象的语块,结合语块的语言学特征分析归纳了7种具体的蕴含类型.在此基础上,将中文蕴含识别任务转化为7分类的蕴含类型识别和蕴含语块边界-类型识别任务,在深度学习模型上达到69.19%和62.09%的准确率.实验结果表明,所提出的方法可以有效发现中文蕴含语块边界及与之对应的蕴含类型,为下一步研究提供了可靠的基准方法.

    Abstract:

    Recognizing textual entailment (RTE) is a task to recognize whether two sentences have an entailment relationship. In recent years, RTE in English had made a great progress. The current researches are mainly based on type judgment, and pay less attention to locate the language chunks that lead to the entailment relationship. More over, it leads to a low interpretability of the RTE models. This study selects 12 000 Chinese entailment sentence pairs from the Chinese Natural Language Inference (CNLI) data and labeled chunks which lead to their entailment relationship. Then 7 entailment types are summarized considering Chinese linguistic features. On the basis, two tasks are proposed. One is to recognize the seven-category of entailment type for each entailment sentence pairs, another is to recognize the boundaries of the entailment chunks in it. The proposed deep learning based method reaches an accuracy of 69.19% and 62.09% in the two tasks. The experimental results show that proposed approaches can effectively identifying different types of entailment in Chinese and find the boundaries of the entailment chunks, which demonstrate that the proposed model provides a reliable benchmark for further research.

    参考文献
    相似文献
    引证文献
引用本文

于东,金天华,谢婉莹,张艺,荀恩东.中文文本蕴含类型及语块识别方法研究.软件学报,2020,31(12):3772-3786

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2019-04-02
  • 最后修改日期:2019-06-05
  • 录用日期:
  • 在线发布日期: 2020-12-03
  • 出版日期:
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号