10.3969/j.issn.1673-629X.2012.08.012
基于遗传算法的主题爬虫
针对目前主题网络爬虫搜索策略难以在全局范围内找到最优解,通过对遗传算法的分析与研究,文中设计了一个基于遗传算法的主题爬虫方案.引入了结合文本内容的PageRank算法;采用向量空间模型算法计算网页主题相关度;采取网页链接结构与主题相关度来评判网页的重要性;依据网页重要性选择爬行中的遗传因子;设置适应度函数筛选与主题相关的网页.与普通的主题爬虫比较,该策略能够获取大量主题相关度高的网页信息,能够提高获取的网页的重要性,能够满足用户对所需主题网页的检索需求,并在一定程度上解决了上述问题.
遗传算法、爬虫、主题爬虫、主题相关度、网页重要性
22
TP301.6(计算技术、计算机技术)
2012-11-01(万方平台首次上网日期,不代表论文的发表时间)
共5页
48-52