面向文本挖掘的植物生长发育实体识别研究
[目的]研究从文本中识别植物生长发育实体(Plant Growth and Development Stage Named Entity,PDSE)的抽取.[应用背景]PDSE从本质上来说是一种命名实体.目前有关命名实体的识别已经成为自然语言处理领域最有价值的基础技术之一,被广泛应用于多种自然语言处理系统中.[方法]采用基于条件随机场和规则的混合策略,提出并实现针对PDSE特征的CRF特征模板、特征函数以及抽取规则的方法,并利用PubMed数据库收录的论文进行抽取效果测试.[结果]实验表明本文提出的混合策略能取得较高的准确率和召回率.[结论]本研究对生物学文本抽取具有一定的借鉴意义.
植物生长发育时期、命名实体识别、条件随机场、特征选择
TP391(计算技术、计算机技术)
国家社会科学基金“面向知识服务的科学数据组织与应用研究”13CTQ035;中央高校基本科研业务费资助项目“面向qRT-PCR实验的内参基因挖掘技术研究”KYZ201159;南京农业大学SRT计划项目“基于混和策略的植物生长发育时期识别”项目1219A11的研究成果之一
2014-03-21(万方平台首次上网日期,不代表论文的发表时间)
共6页
22-27