10.3778/j.issn.1002-8331.2005-0317
基于熵的过采样框架
数据挖掘与机器学习技术日益趋向成熟并且被广泛应用于实际问题的处理中,但该领域仍面临着诸多挑战,如不平衡数据集分类问题.利用过采样技术处理这类问题时,通常只考虑数量的不平衡,而不考虑数据分布是否平衡.利用信息熵度量数据集的局部密度信息,从分布上考虑数据集的不平衡程度,并提出了基于熵的危险集的概念和它的三种使用策略,即基于熵的危险集过采样算法、基于熵的安全集过采样算法和基于熵的自适应过采样算法.竞争性的实验结果表明,这些算法可以有效提升经典过采样算法的性能,为进一步利用信息熵理论研究不平衡数据集提供了成功的实践经验.
数据挖掘、不平衡数据、数据分类、数据分布、信息熵
57
TP391(计算技术、计算机技术)
国家自然科学基金61672025
2021-07-13(万方平台首次上网日期,不代表论文的发表时间)
共6页
96-101