10.3969/j.issn.1006-9348.2023.01.094
拟合化处理不完整数据缺失序列插补算法仿真
为解决大数据环境下,数据采集过程中造成的数据缺失情况,提出基于随机森林的不完整数据缺失插补算法.通过对原始数据进行去重抽样抓取,利用重要极限推导法计算数据抓取概率,减少泛化误差;利用阈值函数剔除异常数据,通过多个独立决策树实行数据缺失部分预测;加入适量噪声验证数据重要程度,从多维数据角度填充缺失数据,同时加入插补终止条件,为避免独立决策树在生成阶段出现过拟合问题;利用最大生长层原则限制随机森林中决策树叶片节点个数,训练缺失数据得到插补权重后,在序列插补法下对数据预测点实行逐一拟合化处理,最终生成最佳的权重矩阵插补.经仿真分析证明,所提缺失数据插补算法可行有效,插补效率高,参数可调,适用多维大数据缺失插补.
数据缺失、随机森林模型、大数据、数据插补、数据预处理、集成学习
40
F811(财政、国家财政)
河南省科技厅科技攻关支持项目;河南省科技厅科技攻关支持项目;河南省科技厅软科学支持项目;河南省教育厅高校青年骨干教师培养资助项目;教育部产学合作协同育人项目;教育部产学合作协同育人项目;郑州工业应用技术学院校级教育教学改革研究与实践项目
2023-03-01(万方平台首次上网日期,不代表论文的发表时间)
共5页
523-527