主页期刊介绍编委会编辑部服务介绍道德声明在线审稿编委办公编辑办公English
2018-2019年专刊出版计划 微信服务介绍 最新一期:2018年第5期
     
在线出版
各期目录
纸质出版
分辑系列
论文检索
论文排行
综述文章
专刊文章
美文分享
各期封面
E-mail Alerts
RSS
旧版入口
中国科学院软件研究所
  
投稿指南 问题解答 下载区 收费标准 在线投稿
杨锦锋,关毅,何彬,曲春燕,于秋滨,刘雅欣,赵永杰.中文电子病历命名实体和实体关系语料库构建.软件学报,2016,27(11):2725-2746
中文电子病历命名实体和实体关系语料库构建
Corpus Construction for Named Entities and Entity Relations on Chinese Electronic Medical Records
投稿时间:2014-12-03  修订日期:2015-06-24
DOI:10.13328/j.cnki.jos.004880
中文关键词:  中文电子病历  命名实体  实体关系  标注规范  标注语料构建
英文关键词:Chinese electronic medical record  named entity  entity relation  annotation specification  annotated corpus construction
基金项目:
作者单位E-mail
杨锦锋 哈尔滨工业大学 语言技术研究中心 网络智能研究室, 黑龙江 哈尔滨 150001  
关毅 哈尔滨工业大学 语言技术研究中心 网络智能研究室, 黑龙江 哈尔滨 150001 guanyi@hit.edu.cn 
何彬 哈尔滨工业大学 语言技术研究中心 网络智能研究室, 黑龙江 哈尔滨 150001  
曲春燕 哈尔滨工业大学 语言技术研究中心 网络智能研究室, 黑龙江 哈尔滨 150001  
于秋滨 哈尔滨医科大学 附属第二医院 病案室, 黑龙江 哈尔滨 150086  
刘雅欣 哈尔滨医科大学 附属第二医院 呼吸内科, 黑龙江 哈尔滨 150086  
赵永杰 哈尔滨医科大学 附属第四医院 神经内科, 黑龙江 哈尔滨 150001  
摘要点击次数: 1599
全文下载次数: 3329
中文摘要:
      电子病历是由医务人员撰写的面向患者个体描述医疗活动的记录,蕴含了大量的医疗知识和患者的健康信息.电子病历命名实体识别和实体关系抽取等信息抽取研究对于临床决策支持、循证医学实践和个性化医疗服务等具有重要意义,而电子病历命名实体和实体关系标注语料库的构建是首当其冲的.在调研了国内外电子病历命名实体和实体关系标注语料库构建的基础上,结合中文电子病历的特点,提出适合中文电子病历的命名实体和实体关系的标注体系,在医生的指导和参与下,制定了命名实体和实体关系的详细标注规范,构建了标注体系完整、规模较大且一致性较高的标注语料库.语料库包含病历文本992份,命名实体标注一致性达到0.922,实体关系一致性达到0.895.为中文电子病历信息抽取后续研究打下了坚实的基础.
英文摘要:
      An electronic medical record (EMR) is a patient's individual medical record written by health care providers and stored in digital format in which much medical knowledge and information about patient's personal health conditions are kept. The construction of annotated corpus for named entities and entity relations on EMR is a primary and fundamental task for information extraction which plays important role in clinical decision support, practice of evidence-based medicine, and other medical applications. Based on survey of current research on corpus construction for named entities and entity relations on EMR, this research proposes an annotation scheme for named entities and entity relations on Chinese electronic medical records (CEMR) according to characteristics of the records. Under the supervision of physicians, a complete and detailed annotation specification on CEMR is formulated, and an annotated corpus with high agreement is constructed. The corpus comprises 992 medical text documents, and inter-annotator agreement (IAA) of named entity annotations and entity relation annotations attain 0.922 and 0.895, respectively. The work presented in this paper builds substantial foundations for the subsequent research on information extraction in CEMR.
HTML  下载PDF全文  查看/发表评论  下载PDF阅读器
 
主办单位:中国科学院软件研究所 中国计算机学会
编辑部电话:+86-10-62562563 E-mail: jos@iscas.ac.cn
Copyright 中国科学院软件研究所《软件学报》版权所有 All Rights Reserved
本刊全文数据库版权所有,未经许可,不得转载,本刊保留追究法律责任的权利