10.3969/j.issn.1672-9722.2008.10.013
基于遗传算法的主题爬行技术研究
针对目前主题搜索策略的不足,提出了基于遗传箅法的主题爬行策略,提高了链接于内容相似度不高的网页之后的页面被搜索的机会,扩大了相关网页的搜索范围.同时,在网页相关度分析方面,引入了基于本体语义的主题过滤策略.实验结果表明,基于遗传算法的主题爬虫抓取网页中的主题相关网页数量多,在合理选择种子集合时,能够抓取大量的主题相关度高的网页.
主题爬虫、遗传算法、主题相关度、本体语义
36
TP393(计算技术、计算机技术)
2008-12-17(万方平台首次上网日期,不代表论文的发表时间)
共4页
50-53