DOI：10.3969/j.issn.1000-1220.2019.02.004

Spark环境下基于综合权重的不平衡数据集成分类方法

引用

摘要：

不平衡数据分类经常面临样本严重不平衡、少数类样本分类精度低的问题,随着数据规模增大,分类效率也成为了瓶颈问题.针对以上问题,本文结合spark高效的数据处理能力,提出了一种Spark环境下基于综合权重的不平衡数据集成分类方法.该方法首先依照多数类样本中每类样本的权重以及少数类样本量获得的综合权重进行采样,并与少数类样本组成平衡规模的训练数据集;其次,采用基于相关性的特征选择方法选择最优的特征子集,并对随机森林算法进行改进优化以及利用其获得子分类器.最后在Spark环境下,以UCI数据集进行实验验证.实验结果表明本文方法不仅提高了整体分类精度,而且提升了分类效率.

关键词：不平衡数据分类、样本采集、综合权重、随机森林、Spark

所属期刊栏目：40

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金项目 51467007, 61562054, 61462050 资助

在线出版日期：2019-05-31（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：255-259

英文信息展示

期刊专题