DOI：10.3969/j.issn.1006-9348.2011.05.054

加权模糊C均值文本聚类算法研究及仿真

引用

摘要：

研究文本聚类问题.传统的文本聚类算法存在着假设各特征词对聚类结果影响相同,聚类准确率较低的缺陷.还有一些算法通过加权的方法,能赋予重要特征词较大的权重,却造成了算法时间复杂度的增加.为解决上述问题,提出了一种新的属性加权模糊C均值文本聚类算法.算法能在迭代过程中标注出每一特征词的权重,却不影响算法的执行效率.使得类内距离之和较小的属性,权值较大;反之则权值较小.经多次仿真证明,提出的文本聚类算法在运算速度、准确率和标注不同属性的重要程度方面都有一定的优势.为文档自动文摘、数字图书馆服务和文档集合自动整理等系统的设计提供了可靠的依据.

关键词：聚类、文本聚类、属性加权、聚类算法

所属期刊栏目：28

分类号：TP391.9(计算技术、计算机技术)

在线出版日期：2011-08-17（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：220-223,249

英文信息展示

期刊专题