10.3969/j.issn.1672-9722.2018.01.031
词向量聚类加权Shark-Search的主题爬虫策略研究
针对Shark-Search算法在主题爬虫中对于链接与主题相关性判断不够全面的问题,采取对待访问链接内容进行词向量聚类的方式,利用余弦距离表示与扩充主题词的相关性,改进了算法中对邻近链接评分的机制.实验结果表明,利用改进后的新算法在限定时间内能够发现更多主题相关的链接,有效提高了主题爬虫的效率.
主题爬虫、Shark-Search、词向量聚类
46
TP301(计算技术、计算机技术)
2018-03-05(万方平台首次上网日期,不代表论文的发表时间)
共5页
144-148