10.19343/j.cnki.11-1302/c.2021.01.012
基于随机化适应性Lasso的高维变量选择
Lasso等惩罚变量选择方法选入模型的变量数受到样本量限制.文献中已有研究变量系数显著性的方法舍弃了未选入模型的变量含有的信息.本文在变量数大于样本量即p>n的高维情况下,使用随机化bootstrap方法获得变量权重,在计算适应性Lasso时构建选择事件的条件分布并剔除系数不显著的变量,以得到最终估计结果.本文的创新点在于提出的方法突破了适应性Lasso可选变量数的限制,当观测数据含有大量干扰变量时能够有效地识别出真实变量与干扰变量.与现有的惩罚变量选择方法相比,多种情境下的模拟研究展示了所提方法在上述两个问题中的优越性.实证研究中对NCI-60癌症细胞系数据进行了分析,结果较以往文献有明显改善.
随机化适应性Lasso;高维变量选择;选择性推断
38
O212(概率论与数理统计)
中国人民大学科学研究基金中央高校基本科研业务费专项资金资助项目"大数据分析的稳健统计理论与应用研究"18XNL012
2021-08-19(万方平台首次上网日期,不代表论文的发表时间)
共14页
147-160