10.3969/j.issn.1007-3116.2014.09.014
基于随机森林模型的分类数据缺失值插补
缺失数据是影响调查问卷数据质量的重要因素,对调查问卷中的缺失值进行插补可以显著提高调查数据的质量。调查问卷的数据类型多以分类型数据为主,数据挖掘技术中的分类算法是处理属性分类问题的常用方法,随机森林模型是众多分类算法中精度较高的方法之一。将随机森林模型引入调查问卷缺失数据的插补研究中,提出了基于随机森林模型的分类数据缺失值插补方法,并根据不同的缺失模式探讨了相应的插补步骤。通过与其它方法的实证模拟比较,表明随机森林插补法得到的插补值准确度更优、可信度更高。
缺失值插补、调查问卷、分类数据、随机森林、数据挖掘
F812(财政、国家财政)
国家社会科学基金项目《基于数据挖掘技术的调查数据质量控制研究》13B T J007
2014-10-20(万方平台首次上网日期,不代表论文的发表时间)
共5页
86-90