DOI：10.3979/j.issn.1673-825X.2014.01.019

基于均值密度中心估计的k-means聚类文本挖掘方法

引用

摘要：

文本挖掘作为数据挖掘的重要研究领域,是检索有用文本信息的重要手段.通过对K-means聚类挖掘方法的基本原理和实现步骤的分析,发现随机选择聚类中心迭代初值、奇异点问题是制约其发展的技术瓶颈,针对该方法的不足,提出了一种基于均值密度中心估计的K-means聚类文本挖掘方法,采用基于均值密度的聚类中心初值估算取代原有方法的随机选取模式,设计自适应的邻域形状选择机制,用均值密度配合阈值消除奇异点.实验结果表明,提出的方法提高了K-means聚类方法的文本挖掘性能,使得文本挖掘查准率得到很大的提高,不仅强于一般K-means均值聚类方法,且和新近流行的自组织神经网络聚类方法相比也具有一定的优势.

关键词：数据挖掘、文本挖掘、均值密度、聚类中心、奇异点

所属期刊栏目：26

分类号：TP391(计算技术、计算机技术)

资助基金：广西教育厅科研项目基金资助201106LX745,201204LX593;The Guangxi Educational Scientific Research Project Funds201106LX745,201204LX593

在线出版日期：2016-01-16（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：111-116

英文信息展示

期刊专题