10.3969/j.issn.1009-3044.2008.35.043
聚焦爬行中网页爬行算法的改进
因特网的迅速发展对万维网信息的查找与发现提出了巨大的挑战.对于大多用户提出的与主题或领域相关的查询需求,传统的通用搜索引擎往往不能提供令人满意的结果网页,为了克服通用搜索引擎的以上不足,提出了面向主题的聚焦爬虫的研究思路和方法.该文针对聚焦爬虫这一研究热点,对现今聚焦爬虫的爬行方法(主要是网页分析算法和网页搜索策略)做了深入分析和对比.提出了一种改进的聚焦爬行算法.这种基于类间规则的聚焦爬行方法借助baseline聚焦爬虫的架构,应用朴素的贝叶斯分类器并利用主题团间链接的统计关系构造规则找到在一定链接距离内的"未来回报"页面,并通过实验对该算法的性能进行分析、评价,证明其对聚焦爬虫的爬行收获率和覆盖率有很好的改善.
baseline聚焦爬虫、朴素的贝叶斯分类器、未来回报率、基于规则的聚焦爬虫、通道
4
TP311(计算技术、计算机技术)
2009-03-10(万方平台首次上网日期,不代表论文的发表时间)
共3页
2145-2146,2149