DOI：10.11896/j.issn.1002-137X.2019.01.014

样本自适应的不平衡分类器

引用

摘要：

大数据时代,不平衡数据分类在实际应用场景中频繁出现.以二分类为例,传统分类器由于较难学习少数类数据集内部的本质结构,容易将少数类样本错误分类.针对这一问题,一种有效的解决方法是在传统的方法中引入代价敏感机制,为少数类样本赋予更高的误分代价以提升其预测精度.这类方法同等对待了同类样本集中的数据,然而同一类内的不同样本可能对训练过程有不同程度的贡献.为了提升代价敏感机制的有效性,样本自适应的代价敏感策略为不同的样本赋予不同的权重.首先,通过考察样本局部的类分布情况,判断其距离两类样本边界的远近;然后,根据边界分布理论,即距离决策面越近的样本对决策面位置的影响越大,为距离两类样本边界越近的样本赋予越高的权重.实验过程中,通过将样本自适应代价敏感策略应用于LDM,并在标准数据集上进行一系列对比实验,验证了样本自适应代价敏感策略在处理不平衡数据分类问题上的有效性.

关键词：分类、代价敏感学习、边界样本

所属期刊栏目：46

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金61370129,61375062,61632004,61773050

在线出版日期：2019-03-15（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：94-99

英文信息展示

期刊专题