10.3969/j.issn.1000-3428.2008.16.070
基于多Agent系统的定题爬虫算法
定题爬虫的研究是定题搜索引擎的关键技术.该文提出一种基于多Agent系统的爬虫算法,采用本题语义主题关键词过滤的方法来抓取与主题相关的网页,利用本体库语义网络实现本体领域中同近义词的过滤.凭借HTML网页标记对关键字识别的不同权重和超链接锚文本对主题相关网页进行预测,通过黑板的通信机制实现多Agent交互.实验结果表明算法在抓取网页的查准率、查全率方面有一定的改善.
定题爬虫、主题关键字过滤、语义
34
TP301.6(计算技术、计算机技术)
江苏省科技攻关基金资助重点项目BE2004093
2008-09-24(万方平台首次上网日期,不代表论文的发表时间)
共3页
204-206