DOI：10.3969/j.issn.1000-3428.2018.04.043

面向不平衡数据集分类模型的优化研究

引用

摘要：

为提高不平衡数据集的分类效率,建立一种分类模型,从样本采样和分类算法两方面进行优化.对决策边界的少类样本进行循环过采样生成新样本集,并与决策边界外合成的少类样本集合并,提高样本的重要度.针对传统ε-支持向量机(ε-SVM)在对不平衡数据集分类时超平面偏移的问题,引入正负惩罚系数和混合核函数,并利用客观的熵值法选取惩罚系数,提高分类算法的性能.实验结果表明,与标准的SVM算法相比,该分类模型在不平衡数据集分类上F-measure值平均提高18.1％,具有较好的分类效果.

关键词：文本分类、不均衡数据集、数据挖掘、样本重采样、熵值法

所属期刊栏目：44

分类号：TP311(计算技术、计算机技术)

资助基金：国家重点研发计划项目2016YFD0702105

在线出版日期：2018-11-23（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：268-273,293

英文信息展示

期刊专题