10.3969/j.issn.1000-3428.2011.06.028
中文RSS信息自动检索与分类研究
设计并实现了RSS垂直爬虫算法,利用广度优先算法聚焦于RSS源进行自动采集,并在文本分词基础上,针对RSS源进行词语权重计算方法的改进及词语过滤,利用VSM方法实现RSS自动分类.实验结果表明,RSS系统在较低的负载下,能以较高的效率和正确率实现中文RSS信息自动检索与分类,从而有效进行RSS信息聚合管理.
RSS、信息检索、爬虫、中文文本分类、向量空间模型
37
TP311(计算技术、计算机技术)
天津市软件产业发展专项基金资助项目07PZRJFX01300
2011-08-04(万方平台首次上网日期,不代表论文的发表时间)
共4页
79-81,90