基于自主学习与SCAD-Net正则化的回归模型
众多基因生物标志物选择方法常因研究样本较少而不能直接用于临床诊断.于是有学者提出整合不同基因表达数据同时保留生物信息完整性的方法.然而,由于存在批量效应,导致直接整合不同基因表达数据可能会增加新的系统误差.针对上述问题,提出一个融合自主学习与SCAD-Net正则化的分析框架.一方面,自主学习方法能够先从低噪声样本中学习出基础模型,然后再通过高噪声样本学习使得模型更加稳健,从而避免批量效应;另一方面,SCAD-Net正则化融合了基因表达数据与基因间的交互信息,可以实现更好的特征选择效果.不同情形下的模拟数据以及在乳腺癌细胞系数据集上的结果表明,基于自主学习与SCAD-Net正则化的回归模型在处理高维复杂网络数据集时具有更好的预测效果.
自主学习;图正则化;变量选择;基因表达;回归
30
国家自然科学基金71771201,71874171,71731010,71631006,71991464
2021-12-21(万方平台首次上网日期,不代表论文的发表时间)
共9页
37-45