DOI：10.3969/j.issn.1673-7571.2020.11.002

基于主动学习的中文电子病历命名实体识别研究

引用

摘要：

目的:开展基于主动学习的中文电子病历命名实体识别研究,旨在优化机器学习模型,并降低标注成本.方法:分析比较信息熵、语料长度以及随机查询3种不同算法,采用CCKS 2018 CNER评测语料,识别病历文本中的解剖部位、手术、药物、独立症状、症状描述5类实体.结果:在字数成本节约方面,基于熵的方法相比基于长度的方法节省了41％的字数;在语料成本节约方面,基于熵的算法相比随机抽样节省了46％的语料.结论:基于信息熵的主动学习方法通过选择待选标注集中最不确定的语料进行标注,可显著减少对标注语料的依赖,降低人工标注成本.

关键词：主动学习、命名实体识别、中文电子病历、信息熵、语料标注

所属期刊栏目：15

分类号：R319(医用一般科学)

资助基金：中国医学科学院中央级公益性科研院所基本科研业务费项目-面向知识发现的中文电子病历语义标注方法研究;中国医学科学院医学与健康科技创新工程协同创新团队项目-中文临床医学术语系统构建研究

在线出版日期：2021-01-12（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：6-9

英文信息展示

期刊专题