改进SMOTE的过采样算法
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.3969/j.issn.1673-808X.2022.01.007

改进SMOTE的过采样算法

引用
针对不平衡数据集分类,现有的过采样算法更多地解决了类间不平衡问题,而未考虑少数类的类内不平衡,未筛选进行过采样的样本及未去除噪音,且合成过程中存在样本重叠及样本分布"边缘化"等问题,提出一种基于层次聚类和改进SMOTE的过采样算法AGNES-SMOTE.该算法对多数类和少数类样本分别进行层次聚类,并根据获得的多数类簇划分少数类簇,合并过程中考虑多数类样本分布,避免重叠样本的生成.接着根据少数类簇中的样本数量确定采样权重,并根据少数类样本到其近邻多数类样本的距离计算出每个少数类簇的概率分布,结合两者来选取"种子样本".最后在采样过程中采用质心方式来限制合成样本的生成区域.将AGNES-SMOTE与分类器结合来处理不平衡数据集的分类问题.通过UCI数据集上与其他文献中相关算法的对比实验表明,AGNES-SMOTE在新样本的整体合成效果上表现出色,取得更高的G-mean值、F-measure值和AUC值,有效提高了分类器在不平衡数据集上的分类性能.

不平衡数据集、层次聚类、采样权重、概率分布、生成区域

42

TP18(自动化基础理论)

广西自然科学基金;广西科技重大专项;北海市科技计划

2022-05-25(万方平台首次上网日期,不代表论文的发表时间)

共7页

53-59

相关文献
评论
暂无封面信息
查看本期封面目录

桂林电子科技大学学报

1673-808X

45-1351/TN

42

2022,42(1)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn