基于文本聚类的新闻采集分析系统设计与应用

引用

摘要：

随着互联网的飞速发展，网络上新闻信息越来越繁杂，采集有用数据过滤冗余数据变得十分重要，但目前市面上流行软件并不能过滤冗余新闻。采用网络爬虫、中文分词、向量空间模型、文本聚类等技术可设计一个能自动采集新闻并能将所得信息自动聚类的系统，并且通过真实新闻数据验证了该系统的有效性，证明其能帮助用户发现、过滤重复新闻、相似新闻，并能提取热点新闻，提高用户阅读新闻的效率。

关键词：文本聚类、向量空间模型、网络爬虫、文本相似度、层次凝聚法

分类号：TP319(计算技术、计算机技术)

资助基金：国家自然科学基金项目编号61175046；安徽大学科研训练计划项目编号KYXL2012057

在线出版日期：2015-06-10（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：5-7,9

英文信息展示

期刊专题