10.3321/j.issn:0253-987X.2004.06.013
可在线增量自学习的聚焦爬行方法
将Web爬行看作执行序列动作的过程, 结合改进的快速Q学习和半监督贝叶斯分类器,提出一种新的具有在线增量自学习能力的聚焦爬行方法.该方法从获取的页面中抽取特征文本,根据特征文本评估页面的主题相关性,预测链接的Q值,然后基于Q值过滤无关链接.当得到主题相关页面时产生回报,将回报沿链接链路反馈,更新链路上所有链接的Q值,并选择相应的特征文本作为训练样本,增量地改善主题评估器和Q值预测器.实验结果表明,该方法具有很快的自学习能力,获取的页面数目和精度均优于离线聚焦爬行方法,更符合Web资源发现的要求.
资源发现、聚焦爬行、在线学习、半监督学习
38
TP391(计算技术、计算机技术)
国家高技术研究发展计划863计划2003AA1Z2610
2004-07-02(万方平台首次上网日期,不代表论文的发表时间)
共4页
599-602