DOI：10.3321/j.issn:0253-987X.2004.06.013

可在线增量自学习的聚焦爬行方法

引用

摘要：

将Web爬行看作执行序列动作的过程, 结合改进的快速Q学习和半监督贝叶斯分类器,提出一种新的具有在线增量自学习能力的聚焦爬行方法.该方法从获取的页面中抽取特征文本,根据特征文本评估页面的主题相关性,预测链接的Q值,然后基于Q值过滤无关链接.当得到主题相关页面时产生回报,将回报沿链接链路反馈,更新链路上所有链接的Q值,并选择相应的特征文本作为训练样本,增量地改善主题评估器和Q值预测器.实验结果表明,该方法具有很快的自学习能力,获取的页面数目和精度均优于离线聚焦爬行方法,更符合Web资源发现的要求.

关键词：资源发现、聚焦爬行、在线学习、半监督学习

所属期刊栏目：38

分类号：TP391(计算技术、计算机技术)

资助基金：国家高技术研究发展计划863计划2003AA1Z2610

在线出版日期：2004-07-02（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：599-602

英文信息展示

期刊专题