10.7659/j.issn.1005-6947.2022.09.009
基于机器学习的胰腺癌特征基因筛选初步研究
背景与目的:胰腺癌是一种难治的癌症,90%以上的患者在诊断后1年内死亡.胰腺癌病变组织和正常组织之间存在差异表达基因(DEGs)可能与胰腺癌的发生和发展密切相关.本研究运用机器学习方法对胰腺癌DEGs进行筛选,以期为研究该病的发生机制提供依据.方法:从公共基因GEO数据库中筛选胰腺癌基因表达谱,使用线性回归模型软件包Limma对不同组的芯片进行差异性计算,归一化;使用R语言获得DEGs,对筛选出来的DEGs特征选择方法进一步进行筛选;基于获得的核心DEGs,采用AdaBoost和Bagging算法分别构建胰腺癌预测模型.用DAVID网站对核心DEGs进行GO功能分析和KEGG通路富集分析,再用STRING网站及Cytscape软件对核心DEGs进行蛋白-蛋白相互作用(PPI)网络分析,最后用GEPIA网站对预后相关的核心DEGs行生存分析.结果:通过特征筛选,得到了 18个关键的DEGs;以该18个DEGs建立特征子集,结合AdaBoost算法建立了预测模型,预报准确率可以达到92.3%.通过对DEGs的GO和KEGG分析,发现CDK1、CCNA2和CCNB1有间接作用,对胰腺癌的形成和发展有一定的作用.生存分析显示,CDK1(P=0.000 8)、CCNB1(P=0.012)、CSK2(P=0.023)、CKS1B(P=0.001 3)的表达量与患者总生存期(OS)有相关性,它们的表达量越高,患者OS越短.结论:机器学习方法可较好地对胰腺癌特征基因进行筛选,对胰腺癌的诊治及相关的药物开发具有一定意义.
胰腺肿瘤、基因表达谱、机器学习、计算生物学
31
R736.7(肿瘤学)
湖南省自然科学基金资助项目2019JJ40489
2022-10-31(万方平台首次上网日期,不代表论文的发表时间)
共7页
1203-1209