10.3969/j.issn.1672-4291.2012.01.005
一种确定最佳聚类数的新算法
针对K-均值聚类算法需要事先确定聚类数K的问题,将粒度计算引入样本相似度函数,定义了新的样本相似度,用模糊等价聚类确定数据集可能的最大类簇数Kmax.以Kmax为搜索上界,利用改进全局K-均值聚类算法,以BWP(Between-Within Proportion)为聚类有效性度量指标,提出确定最佳聚类数的一种新方法.通过UCI机器学习数据库数据集以及随机生成的人工模拟数据集实验测试,证明该算法不仅能有效确定数据集的最佳聚类数,而且适用于大规模数据集,但是会受到噪音点影响.
信息粒度、K-均值、全局K-均值、模糊相似度、聚类指标BWP
40
TP181.1(自动化基础理论)
陕西省自然科学基金资助项目2010JM3004;中央高校基本科研业务费专项资金重点项目GK200901006 GK201001003;陕西师范大学研究生培养创新基金项目2011CX029
2012-05-05(万方平台首次上网日期,不代表论文的发表时间)
共6页
13-18