特征选择:一种面向数据取值更新的批处理机制
实际应用中获取到的数据通常是动态更新的,且随着数据观测工具的快速发展,数据库中数据更新的速度也越来越快,同一时刻更新的规模也越来越大.面向动态数据集的数据挖掘研究中,数据库中数据取值的动态更新也是一种数据集动态变化的类型.特征选择是一种有效的数据预处理工具,面向数据取值动态更新的特征选择方法也已经引起了众多研究者的广泛关注.为此,基于粗糙集理论和信息熵的概念,提出一种面向数据取值动态变化数据集的特征选择方法,可一次处理一组取值发生变化的数据.算法中首先分析了信息熵随数据取值动态变化的更新机制,以信息熵作为特征重要度的度量,设计了基于信息熵的粗糙特征选择算法.实验结果进一步验证了新算法的可行性和高效性.
动态数据集、粗糙集、特征选择、信息熵
38
TP311(计算技术、计算机技术)
国家自然科学基金项目61402272;山西省科技基础条件平台建设项目2012091002-0101;山西省科技攻关项目20110321027-01;山西省煤基重点科技攻关项目MQ2014-09
2017-08-22(万方平台首次上网日期,不代表论文的发表时间)
共4页
264-267