10.3772/j.issn.1000-0135.2011.02.006
基于主题描述模型的相关性判断在网页信息抽取中的应用
信息抽取是从海量网页获取有价值信息的重要方式,对目标网页内容进行主题相关性判断是提高信息抽取效率和准确性的关键环节.目前的相关性判断主要采用人工筛选和文档训练的方法,这其中存在效率低、重复训练等问题,而本文尝试针对抽取任务引入主题描述模型用于网页内容的主题相关性判断.从任务的主题描述模型的角度出发,计算模型中的关键词基于标记信息的加权频率,将网页内容进行量化表示,然后分析关键词加权频率关于任务主题描述模型的变化来判断网页内容的主题相关性.最后通过对比该方法在国防产品信息抽取中结果,实验证明该方法大大提高了网页信息抽取的效率和准确性.
主题相关性、主题描述模型、文档频率、信息抽取
30
TP3;TN9
国防技术基础项目研究成果之一
2011-03-28(万方平台首次上网日期,不代表论文的发表时间)
共5页
155-159