一种基于Context Graph主题爬虫系统的算法实现
对搜索引擎的原理结构进行深度剖析,经可行性认定后,将机器学习算法与现有的技术手段进一步融合提升,以Python为开发平台,以Context Graph为开发主题,构建并设计出可实现的目标爬虫系统.通过实际运用检测系统的实用性能,选择国内具有较大规模的汽车网站为研究对象,设置"汽车"为关键词对全部内容展开不同类别的爬取,进而分析所得结果,根据查全率、查准率和F1值综合评价系统的性能.与原有系统相比,升级后算法的模型准确性更好,在一定程度上提高爬取工作的效率.
搜索引擎、主题爬虫、文本分析、机器学习
36
TP391.3(计算技术、计算机技术)
2023-01-04(万方平台首次上网日期,不代表论文的发表时间)
共5页
41-45