10.3969/j.issn.1000-3428.2014.09.062
基于条件随机场的中医临床病历命名实体抽取
中医临床病历是中医重要的科研数据资源,但目前临床病历仍以文本为主要表达形式,对病历数据深入分析的前提是进行结构化信息抽取,而命名实体抽取是其基础性步骤。针对中医临床病历的命名实体,如症状、疾病和诱因等的抽取问题,通过手工标注的413份病历数据(以中文字为特征)与4类特征模版,将条件随机场( CRF)、隐马尔科夫模型( HMM)和最大熵马尔科夫模型( MEMM)用于中医病历命名实体抽取的实验,并进行比较分析。结果表明,结合合适的特征模版,CRF命名实体抽取方法取得了较好的性能,F1值的症状达到0.80,疾病名称达到0.74,诱因0.74。与HMM和MEMM相比,CRF有最高的准确率和召回率,是一种较为适用的中医临床病历命名实体抽取方法。
中医临床病历、命名实体抽取、语料库标注系统、条件随机场、特征模板
TP391(计算技术、计算机技术)
国家自然科学基金资助项目61105055,81230086;国家“863”计划基金资助项目2012AA02A609;中央高校基本科研业务费专项基金资助项目K13JB00140。
2014-09-26(万方平台首次上网日期,不代表论文的发表时间)
共5页
312-316