10.3969/j.issn.1673-629X.2020.08.003
多种聚类算法性能的比较分析
聚类模型是数据挖掘的重要模型,聚类相关模型比较多,聚类算法对数据特征等有较高的要求,目前广泛应用于人工智能、数据分析等领域.选取了六种不同类型的聚类算法,即Affinity Propagation、Birch、Gaussian Mixture Model、Hierarchical clustering、K-means和Spectral,并对其进行了对比分析.采用由机器生成的符合大数据时代下数据特性的数据集而非UCI数据库中符合特定形态的标准测试集,并在数据集上对算法进行了性能测试、效率测试和敏感性分析.研究结果显示,在性能测试上:AP算法聚类效果最佳,其次是K-means算法.Affinity Propagation算法对数据的要求高,使用范围小,K-means适用性和稳定性相对比较好;在效率测试上,Affinity Propagation算法最差,其次是Spectral算法;在敏感性上,K-means算法和Hierarchical clustering算法对数据的数量级不敏感,Spectral算法对数量级比较敏感.从聚类效果、性能和对数量级的敏感性三个方面综合来看,K-means算法相对优于其他五种聚类算法.
聚类算法、机器数据集、性能、效率、敏感性
30
TP391(计算技术、计算机技术)
国家自然科学基金;上海市研究生创新基金项目;上海市教委重点学科建设项目
2020-08-18(万方平台首次上网日期,不代表论文的发表时间)
共8页
14-21