10.3772/j.issn.1000-0135.2013.03.002
基于度量级融合的论文元数据提取方法
针对现有的元数据提取方法提取精度不高且适应能力较差的问题,本文提出一种基于度量级融合的论文元数据提取方法.首先,提取论文首部的特征,利用已标注的数据集对HMM、SVM和CRF三种统计学习方法进行训练,生成相应的元数据提取模型;然后,根据贝叶斯判决理论推导出和规则,并利用和规则对三种提取模型产生的后验概率进行融合决策,实现论文元数据的提取;最后,通过设定时间段和文档数阈值,采用基于时间段统计的方法动态更新三种提取模型,以确保模型的有效性.在不同的数据集上对各种提取方法的性能进行了实验对比,结果表明,本文提出的方法不仅提高了元数据提取精度,而且具有较强的适应能力.
元数据提取、统计学习、度量级融合、后验概率、和规则
32
TP3;H12
教育部科技发展中心网络时代的科技论文快速共享专项研究资助课题2011109
2013-04-22(万方平台首次上网日期,不代表论文的发表时间)
共9页
235-243