10.3969/j.issn.1006-2475.2011.09.001
基于网页内容相似度改进算法的主题网络爬虫
主题网络爬虫是垂直搜索引擎的重要组成部分,传统主题爬虫的网页内容相似度算法只考虑词频,忽略了关键词的位置信息.本文在分析基于网页内容相似度的主题爬虫的基础之上,提出利用网页HTML标签的特点改进相似度的计算方法.实验结果表明,改进算法抓取的平均准确率为64.99%,相比原始方法提高了15.37%.
搜索引擎、主题网络爬虫、相似度、向量空间模型、HTML标签
TP301.6(计算技术、计算机技术)
福建省自然科学基金资助项目2010J05133;福建江夏学院青年项目2010C046;福州大学科技专项启动基金2010-XQ-22
2012-01-14(万方平台首次上网日期,不代表论文的发表时间)
共4页
1-4