10.3969/j.issn.1002-2090.2012.04.017
基于自适应免疫进化算法的聚焦爬虫搜索策略
聚焦爬虫是主题搜索引擎的核心部件。针对目前聚焦爬虫搜索策略的不足,提出基于主题相关度和页面重要性相结合的综合相关度来判别页面主题相关性,并采用自适应免疫进化算法这种搜索策略指导聚焦爬虫的爬行,实验结果证明,该算法下载的主题相关网页数所占比例明显高于最佳搜索和广度优先搜索算法的比例,具有更高的搜索效率。
聚焦爬虫、搜索策略、主题相关度、自适应免疫进化算法
24
TP393(计算技术、计算机技术)
黑龙江省教育厅科学技术研究资助项目11551015
2012-10-24(万方平台首次上网日期,不代表论文的发表时间)
共4页
61-64