10.3969/j.issn.1003-3254.2010.03.011
主题搜索引擎网络爬虫搜索策略的研究与实现
根据网络页面结构的特点,提出通过页面之间的主题传递来预测页面主题相关性的方法,解决了主题爬虫通道堵塞,抓取遗漏的问题.首先根据锚文本传递一个相关性信息值,如果锚文本给出的信息是相关,相关阈值就直接传递;如果是不相关,就乘以遗传基因比例之后传递.传递的过程中如果遇到相关的网页就恢复链接的相关性信息值到初始值.最后根据实验结果验证了算法的查全率与查准率,查全率有显著的提高.
网络爬虫、搜索引擎、主题相关、遗传、抓取
19
TP3;F56
2010-04-26(万方平台首次上网日期,不代表论文的发表时间)
共4页
49-52