10.3778/j.issn.1002-8331.1402-0091
基于预期剩余能量模型的聚焦爬行方法
如何确定搜索的方向和深度是聚焦爬行的核心问题.为此,提出了链接的预期剩余能量概念及其计算方法.该方法利用当前页面的信息计算链接的立即回报能量,利用到达同一链接不同历史路径给予的历史回报知识不断迭代更新链接的预期剩余能量.利用预期剩余能量作为链接的优先级和搜索深度限制,设计了基于预期剩余能量模型的聚焦爬行算法,并给出了关键模块的实现.实验结果显示该方法具有更强的主题网站发现能力.
聚焦爬行、搜索方向、搜索深度、主题相关度、预期剩余能量
51
TP311.13(计算技术、计算机技术)
2016-01-14(万方平台首次上网日期,不代表论文的发表时间)
共7页
120-125,158