10.19678/j.issn.1000-3428.0055967
基于多目标蚁群算法的主题爬虫策略
基于关键词匹配检索的传统搜索引擎爬全率和爬准率较低,而使用基于语义检索的主题爬虫方法容易偏离主题与陷入局部最优.针对该问题,提出一种采用多目标蚁群优化算法的主题爬虫方法.构建主题爬虫领域本体和主题向量,以链接的锚文本相关度、链接所在网页主题相关度以及链接指向网页主题相关度为指标判断链接是否与主题相关,并建立链接主题相关度的多目标优化模型,将基于多目标优化的蚁群算法引入主题爬虫的链接选择过程,采用非支配排序和最近最远候选解法选取Pareto最优链接,以引导主题爬虫搜索方向并提升全局搜索性能.实验结果表明,与FCSA、WSE等传统主题爬虫方法相比,该方法爬准率更高,并且能更快抓取到主题相关度高的网页.
主题爬虫、蚁群算法、多目标优化、暴雨灾害、本体构建
46
TP391.3(计算技术、计算机技术)
国家社会科学基金;江苏省自然科学基金;广州市科技计划项目;广州市非通用语种智能处理重点实验室专项
2020-10-13(万方平台首次上网日期,不代表论文的发表时间)
共9页
274-282