10.3969/j.issn.1000-7024.2014.06.058
面向大数据集的有效聚类算法
为解决传统模糊C-均值算法无法适应大规模数据集体量大、冗余属性的问题,提出了一种面向大数据集的混合聚类算法.将大数据集划分为多个子集,对各子集进行聚类,通过合并得到最终聚类结果.对于子集采用基于基因表达式编程(GEP)和模糊C-均值的混合算法进行聚类,以改善聚类的质量和效率;基于相似性选取初始聚类中心,使用信息熵体现属性重要程度,从而进一步优化聚类性能.实验仿真及分析结果表明,该算法具有较好地全局收敛性,得到的聚类效果也更好.
大数据集、模糊C-均值、基因表达式编程、属性信息熵、聚类
35
TP391(计算技术、计算机技术)
2014-07-28(万方平台首次上网日期,不代表论文的发表时间)
共5页
2183-2187