DOI：10.3969/j.issn.1000-1220.2006.01.041

基于前后文词形特征的生物医学文献句子边界识别

引用

摘要：

针对生物医学文献的特点及信息抽取的特殊要求,提出了基于前后文词形特征和有教师学习的句子边界识别算法.与针对一般英语书面语设计的句子边界识别算法不同,本文提出的算法不使用特殊的辅助词表和语法层面的特征信息,只使用前后文单词的词形信息作为句子边界识别和消歧的依据.利用这些特征设计了最大信息熵识别器和支持向量机识别器,并在Medline摘要上进行了实验,达到了超过99%的正确率.实验结果表明,最大信息熵法和支持向量机法在句子边界消歧问题上具有相近的性能,同时还表明,对生物医学文献句子边界识别,只使用词法层面的特征,不使用辅助词表和词性等语法层面的信息,仍可达到其它算法在一般英语书面语上利用辅助词表和词性信息所达到的性能.

关键词：自然语言处理、生物信息抽取、句子边界识别、机器学习

所属期刊栏目：27

分类号：TP391(计算技术、计算机技术)

资助基金：中国科学院资助项目60073046;南京大学校科研和教改项目20020610007

在线出版日期：2006-03-30（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：180-184

英文信息展示

期刊专题