10.16208/j.issn1000-7024.2015.01.004
用户定制主题聚焦爬虫的设计与实现
传统的聚焦爬虫在主题未知或者缺少相应训练集的情况下无法完成主题爬行.为让聚焦爬虫具有更好的主题适应性,提出基于聚类算法的自适应主题模型,指导聚焦爬虫在只有少量相同主题(主题未知)初始url的情况下完成主题爬行.通过对初始页面聚类得到主题中心向量,寻找相关网页更新主题中心位置;基于best-first策略实现url排序;基于该模型实现用户定制主题聚焦爬虫.通过对比实验验证了使用该模型的爬虫具有较高的收获比(havest rate).
聚焦爬虫、k-means、best-first策略、自适应主题模型、用户定制主题爬虫
36
TP311(计算技术、计算机技术)
国家863高技术研究发展计划基金项目2012AA011004;清华大学自主科研基金项目20111081023;国家基金委前瞻计划基金项目61161140454
2015-03-26(万方平台首次上网日期,不代表论文的发表时间)
共5页
17-21