主页期刊介绍编委会编辑部服务介绍道德声明在线审稿编委办公English
2020-2021年专刊出版计划 微信服务介绍 最新一期:2020年第11期
     
在线出版
各期目录
纸质出版
分辑系列
论文检索
论文排行
综述文章
专刊文章
美文分享
各期封面
E-mail Alerts
RSS
旧版入口
中国科学院软件研究所
  
投稿指南 问题解答 下载区 收费标准 在线投稿
张雪,孙宏宇,辛东兴,李翠平,陈红.自动术语抽取研究综述.软件学报,2020,31(7):2062-2094
自动术语抽取研究综述
Survey on Automatic Term Extraction Research
投稿时间:2019-09-17  修订日期:2020-02-09
DOI:10.13328/j.cnki.jos.006040
中文关键词:  自动术语抽取  术语识别  文本处理  机器学习
英文关键词:automatic term extraction  term recognition  text processing  machine learning
基金项目:国家自然科学基金(61772537,61772536,61702522,61532021);国家重点研发计划(2018YFB1004401)
作者单位E-mail
张雪 数据工程与知识工程教育部重点实验室(中国人民大学), 北京 100872
中国人民大学 信息学院, 北京 100872 
 
孙宏宇 数据工程与知识工程教育部重点实验室(中国人民大学), 北京 100872
中国人民大学 信息学院, 北京 100872 
 
辛东兴 数据工程与知识工程教育部重点实验室(中国人民大学), 北京 100872
中国人民大学 信息学院, 北京 100872 
 
李翠平 数据工程与知识工程教育部重点实验室(中国人民大学), 北京 100872
中国人民大学 信息学院, 北京 100872 
licuiping@ruc.edu.cn 
陈红 数据工程与知识工程教育部重点实验室(中国人民大学), 北京 100872
中国人民大学 信息学院, 北京 100872 
 
摘要点击次数: 1249
全文下载次数: 8131
中文摘要:
      自动术语抽取是从文本集合中自动抽取领域相关的词或短语,是本体构建、文本摘要、知识图谱等领域的关键基础问题和研究热点.特别是,随着近年来对非结构化文本大数据研究的兴起,使得自动术语抽取技术进一步得到学者的广泛关注,取得了较为丰富的研究成果.以术语排序算法为主线,对自动术语抽取方法的理论、技术、现状及优缺点进行研究综述:首先概述了自动术语抽取问题的形式化定义和解决框架.然后围绕"浅层语言分析"中基础语言信息和关系结构信息两个层面的特征对近年来国内外的研究成果进行分类,系统总结了现有自动术语抽取方法的研究进展和面临的挑战.最后对术语抽取使用的数据资源及实验评价进行分析,并对自动术语抽取未来可能的研究趋势进行了探讨与展望.
英文摘要:
      Automatic term extraction is to extract domain-related words or phrases from document collections. It is a core basic problem and research hotspot in the fields of ontology construction, text summarization, and knowledge graph. In particular, under the rise of unstructured text studies in big data, automatic term extraction technology has been further concerned by researchers and has obtained rich research results recently. With the terminology sorting algorithm as the main clue, this study surveys the basic theories, technologies, current research works, advantages and disadvantages of automatic term extraction methods. First, the formalized definition and solution framework of automatic term extraction problem are outlined. Then, based on the features of the basic language information and the relational structure information in the "shallow parsing", the latest study results are classified, research progress and major challenges of existing automatic term extraction methods are summarized systematically. Finally, some available data resources are listed, evaluation approaches are analyzed, and the possible research trends in the future are predicted.
HTML  下载PDF全文  查看/发表评论  下载PDF阅读器
 

京公网安备 11040202500064号

主办单位:中国科学院软件研究所 中国计算机学会 京ICP备05046678号-4
编辑部电话:+86-10-62562563 E-mail: jos@iscas.ac.cn
Copyright 中国科学院软件研究所《软件学报》版权所有 All Rights Reserved
本刊全文数据库版权所有,未经许可,不得转载,本刊保留追究法律责任的权利