10.16112/j.cnki.53-1223/n.2023.01.136
面向长尾分布数据的在线流特征选择
在开放动态环境下分类学习的任务中,数据通常存在类别长尾分布的特点,且数据标记空间存在层次化结构关系以及动态性.针对实际任务中不同的需求,许多特征选择算法被提出,但是这些已有的特征选择算法忽略数据的长尾分布特点和特征空间的不确定性.针对上述问题,文中提出基于邻域粗糙集的长尾分布数据在线流特征选择算法.借助邻域粗糙集模型,并考虑邻域内样本间的关系后,定义了自适应邻域关系,设计基于稀有类样本重要性的依赖度计算公式.同时,利用层次结构降低类别不平衡性,提出在线冗余度分析和在线重要度分析两种在线特征评价指标,用于选出具有高可分离性和强区分性的特征子集.实验结果表明所提算法优于其它先进算法.
特征选择、长尾分布数据集、在线流特征选择、层次分类、邻域粗糙集
48
TP18;TP311.13(自动化基础理论)
国家自然科学基金;福建省自然科学基金重点项目
2023-03-21(万方平台首次上网日期,不代表论文的发表时间)
共12页
77-88