基于预期剩余能量模型的聚焦爬行方法

引用

摘要：

如何确定搜索的方向和深度是聚焦爬行的核心问题.为此,提出了链接的预期剩余能量概念及其计算方法.该方法利用当前页面的信息计算链接的立即回报能量,利用到达同一链接不同历史路径给予的历史回报知识不断迭代更新链接的预期剩余能量.利用预期剩余能量作为链接的优先级和搜索深度限制,设计了基于预期剩余能量模型的聚焦爬行算法,并给出了关键模块的实现.实验结果显示该方法具有更强的主题网站发现能力.

关键词：聚焦爬行、搜索方向、搜索深度、主题相关度、预期剩余能量

所属期刊栏目：51

分类号：TP311.13(计算技术、计算机技术)

在线出版日期：2016-01-14（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：120-125,158

英文信息展示

期刊专题