DOI：10.3969/j.issn.1673-629X.2013.11.053

Web采集中信息组合自学习的研究

引用

摘要：

Web采集者为了尽可能准确地采集符合主题的网页信息，一般会根据多种Web信息来预测待采集链接的价值。文中为了提高Web采集系统预测链接价值的准确性，提出了一种能根据已采集页面自行调整Web信息重要性的Web采集者。它具有学习能力，能通过对训练集的爬行，分析出对于预测链接价值各种Web信息的重要性，以此调整采集过程中各Web信息的组合权值，得到符合实际Web情况的较优搜索策略。以计算机作为采集主题，对此算法和传统的Web信息固定组合的算法进行了比较。实验结果表明，较之传统的Web采集者，使用此算法的采集者具有较高的Web搜索精度。

关键词：Web采集者、链接价值、主题搜索、搜索策略、Web信息组合

分类号：TP391(计算技术、计算机技术)

资助基金：湖南省教育科研计划资助项目09C231

在线出版日期：2013-12-04（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：216-219

英文信息展示

期刊专题