面向中文电子病历的句法分析融合模型

引用

摘要：

完全句法分析是自然语言处理(Natural language processing,NLP)中重要的结构化过程,由于中文电子病历(Chinese electronic medical record,CEMR)句法标注语料匮乏,目前还没有面向中文电子病历的完全句法分析研究.本文针对中文电子病历模式化强的子语言特征,首次以树片段形式化中文电子病历复用的模式,提出了面向数据句法分析(Dataoriented parsing,DOP)和层次句法分析融合模型.在树片段抽取阶段,提出效率更高的标准树片段和局部树片段抽取算法,分别解决了标准树片段的重复比对问题,以及二次树核(Quadratic tree kernel,QTK)的效率低下问题,获得了标准树片段集和局部树片段集.基于上述两个树片段集,提出词汇和词性混合匹配策略和最大化树片段组合算法改进面向数据句法分析模型,缓解了无效树片段带来的噪声.实验结果表明,该融合模型能够有效改善中文电子病历句法分析效果,基于少量标注语料F1值能够达到目前最高的80.87％,并且在跨科室句法分析上超过Stanford parser和Berkeley parser 2％以上.

关键词：中文电子病历、完全句法分析、面向数据句法分析、层次句法分析

所属期刊栏目：45

资助基金：国家自然科学基金71531007

在线出版日期：2019-05-30（万方平台首次上网日期，不代表论文的发表时间）

页数：共13页

页码：276-288

英文信息展示

期刊专题