10.3969/j.issn.1002-266X.2023.05.003
基于机器学习算法和生物信息学技术构建的肺癌与肺结核鉴别诊断模型及其初步评价
目的 采用机器学习算法结合生物信息学构建肺癌与肺结核鉴别诊断模型,并对其诊断准确度进行初步评价.方法 通过GEO数据库筛选并下载肺癌与肺结核数据集GSE42834,运用R软件的limma包筛选肺癌与肺结核差异表达基因(DEGs),对筛选出的DEGs进行GO生物过程和KEGG作用通路分析.使用STRING工具和Cytscape软件构建蛋白质相互作用网络(PPI),筛选肺癌与肺结核核心DEGs并使用t检验验证;将筛选出的核心DEGs输入R软件caret包,使用留一交叉验证法(LOOCV)结合8种机器学习算法构建肺癌与肺结核的鉴别诊断模型,包括支持向量机(SVM)、自适应提升算法(AdaBoost)、C5.0决策树(C5.0)、随机森林(RF)、朴素贝叶斯(NB)、神经网络(NN)、线性判别分析(LDA)及逻辑回归(LR)模型,筛选模型的最优参数.使用Bootstrap法对模型进行内部验证,采用准确率、Kappa值、敏感度及特异度初步评价鉴别诊断模型的诊断准确度.结果 GSE42834数据集中共筛选出325个DEGs,其中上调基因205个,下调基因120个.GO生物过程分析结果显示,肺癌与肺结核DEGs主要富集的生物过程为对病毒的反应、对病毒的防御反应、干扰素γ反应等;KEGG作用通路分析结果显示,肺癌与肺结核DEGs主要富集的作用通路为甲型流感、EB病毒感染、抗原处理和呈递等.PPI网络显示,具有最高连通性的前10个核心DEGs分别为STAT1、CXCL10、MX1、ISG15、IFIH1、OASL、IFIT3、GBP1、IFI44和IFIT1,经验证10个核心DEGs在肺癌患者中的表达水平均低于肺结核患者(P均<0.05).8种肺癌与肺结核鉴别诊断模型的最优参数分别为SVM(Sigma=0.157,C=0.25)、AdaBoost(nIter=50,method=Real adaboost)、C5.0(trials=10,model=rules,winnow=TRUE)、RF(mtry=2)、NB(laplace=0,usekernel=FALSE,adjust=1)、NN(size=1,decay=0.1)、LDA(dimen=1)、LR(NA);内部验证结果显示,所有鉴别诊断模型准确率、Kappa值、灵敏度及特异度均较高,其中AdaBoost、RF、NN和LR准确率为1.000.结论 通过机器学习算法结合生物信息学方法建立了8个肺癌与肺结核早期鉴别诊断模型,其中Ada?Boost、RF、NN和LR准确性较高,具有良好的鉴别诊断能力.
诊断模型、肺癌、肺结核、机器学习算法、生物信息学技术
63
R734.2(肿瘤学)
国家自然科学基金82060622
2023-03-08(万方平台首次上网日期,不代表论文的发表时间)
共4页
11-14