DOI：10.11772/j.issn.1001-9081.2019060962

基于样本密度峰值的不平衡数据欠抽样方法

引用

摘要：

不平衡数据分类是数据挖掘和机器学习领域的一个重要问题,其中数据重抽样方法是影响分类准确率的一个重要因素.针对现有不平衡数据欠抽样方法不能很好地保持抽样样本与原有样本的分布一致的问题,提出一种基于样本密度峰值的不平衡数据欠抽样方法.首先,应用密度峰值聚类算法估计多数类样本聚成的不同类簇的中心区域和边界区域,进而根据样本所处类簇区域的局部密度和不同密度峰值的分布信息计算样本权重;然后,按照权重大小对多数类样本点进行欠抽样,使所抽取的多数类样本尽可能由类簇中心区域向边界区域逐步减少,在较好地反映原始数据分布的同时又可抑制噪声;最后,将抽取到的多数类样本与所有的少数类样本构成平衡数据集用于分类器的训练.多个数据集上的实验结果表明,与现有的RBBag、uNBBag和KAcBag等欠抽样方法相比,所提方法在F1-measure和G-mean指标上均取得一定的提升,是有效、可行的样本抽样方法.

关键词：不平衡数据、密度峰值、样本权重、欠抽样、集成学习

所属期刊栏目：40

分类号：TP301.6(计算技术、计算机技术)

资助基金：国家自然科学基金资助项目;福建省高校产学合作项目

在线出版日期：2020-04-21（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：83-89

英文信息展示

期刊专题