10.3969/j.issn.1001-7119.2013.08.027
一种基于K均值聚类的下采样算法
随机下采样方法在不平衡数据集处理上容易造成重要信息损失,影响了分类器的性能。为了尽可能的避免数据信息损失,本文提出了一种基于K均值聚类的下采样方法。该方法通过K均值聚类将原始多数类样本聚为与少数类样本数目相当的簇,然后对每一个簇求样本中心,利用样本中心作为新的多数类的样本。本文所提方法得到的多数类样本与少数类样本个数相当,降低了不平衡度,而且每一个新多数类样本都是每一个簇的中心,保留了原始样本的分布信息。在客户流失数据集上的分类实验表明,本文方法较随机下采样方法更为有效。
不平衡数据、K均值聚类、少数类、客户流失数据集
TP391(计算技术、计算机技术)
2013-09-11(万方平台首次上网日期,不代表论文的发表时间)
共3页
73-75