10.3969/j.issn.1007-3116.2022.10.002
广义可加模型的拟最优样本选择方法
面对海量数据,如何选取一个具有代表性的样本进行统计建模以揭示数据背后的规律、进而对经济和社会发展进行预测和判断,是统计学研究的重点.本研究以确定性抽样方法给出该问题的答案,该方法能够有效避免由传统概率抽样方法带来的损失,使得具有代表性的样本点尽量被选人抽样样本中,更加全面地反映总体情况.本研究集中在广义可加模型的最优样本抽取方法.通过比较全样本和抽样样本估计结果之间的差距,发现样本需要满足一定的正交性条件才能最大程度还原总体的统计特征.基于该正交条件,给出了一个贪婪的拟最优样本选择方法.大量的模拟数据和实际数据证实,相较于传统概率抽样方法,确定性抽样方法具有更优良的性能,该方法可以拓展到广义变系数模型,并且适用于处理经济统计和政府统计产生的大型微观数据集.
大数据、确定性抽样、广义可加模型、拟最优样本
37
O212(概率论与数理统计)
对外经济贸易大学中央高校基本科研业务费专项;对外经济贸易大学惠园杰出青年学者项目
2023-01-11(万方平台首次上网日期,不代表论文的发表时间)
共9页
16-24