DOI：10.3969/j.issn.1001-7119.2013.08.027

一种基于K均值聚类的下采样算法

引用

摘要：

　　随机下采样方法在不平衡数据集处理上容易造成重要信息损失，影响了分类器的性能。为了尽可能的避免数据信息损失，本文提出了一种基于K均值聚类的下采样方法。该方法通过K均值聚类将原始多数类样本聚为与少数类样本数目相当的簇，然后对每一个簇求样本中心，利用样本中心作为新的多数类的样本。本文所提方法得到的多数类样本与少数类样本个数相当，降低了不平衡度，而且每一个新多数类样本都是每一个簇的中心，保留了原始样本的分布信息。在客户流失数据集上的分类实验表明，本文方法较随机下采样方法更为有效。

关键词：不平衡数据、K均值聚类、少数类、客户流失数据集

分类号：TP391(计算技术、计算机技术)

在线出版日期：2013-09-11（万方平台首次上网日期，不代表论文的发表时间）

页数：共3页

页码：73-75

英文信息展示

期刊专题