10.3969/j.issn.1007-757X.2010.03.017
基于改进PageRank的情报主题相关度预测策略
选择恰当的情报主题相关度预测策略,控制采集情报质量为企业的决策提供正确有效的素材是面向主题的情报采集的核心技术之一.单一依靠文本或链接的情报主题相关度预测策略,不能准确有效地预测待爬网页的价值.该文提出一种基于主题的PageRank算法-Focused PageRank算法来计算网页URL优先级.该方法考虑了页面内容的主题相关度以提高抓取页面的质量,通过网页链接关系预测网页的重要度以提高情报采集的覆盖率.从而提高情报采集的速度和效率,实现不同情报主题下页面URL优先级排序,适应企业竞争情报系统对多主题情报信息的采集.
情报采集、主题相关度、重要度、PageRank
26
TP3;G35
昆明市科技型技术中小企业创新基金资助项目"基于Web的企业竞争情报平台开发"CJ2007040
2010-05-19(万方平台首次上网日期,不代表论文的发表时间)
共3页
48-50