基于机器学习算法和生物信息学技术构建的肺癌与肺结核鉴别诊断模型及其初步评价
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.3969/j.issn.1002-266X.2023.05.003

基于机器学习算法和生物信息学技术构建的肺癌与肺结核鉴别诊断模型及其初步评价

引用
目的 采用机器学习算法结合生物信息学构建肺癌与肺结核鉴别诊断模型,并对其诊断准确度进行初步评价.方法 通过GEO数据库筛选并下载肺癌与肺结核数据集GSE42834,运用R软件的limma包筛选肺癌与肺结核差异表达基因(DEGs),对筛选出的DEGs进行GO生物过程和KEGG作用通路分析.使用STRING工具和Cytscape软件构建蛋白质相互作用网络(PPI),筛选肺癌与肺结核核心DEGs并使用t检验验证;将筛选出的核心DEGs输入R软件caret包,使用留一交叉验证法(LOOCV)结合8种机器学习算法构建肺癌与肺结核的鉴别诊断模型,包括支持向量机(SVM)、自适应提升算法(AdaBoost)、C5.0决策树(C5.0)、随机森林(RF)、朴素贝叶斯(NB)、神经网络(NN)、线性判别分析(LDA)及逻辑回归(LR)模型,筛选模型的最优参数.使用Bootstrap法对模型进行内部验证,采用准确率、Kappa值、敏感度及特异度初步评价鉴别诊断模型的诊断准确度.结果 GSE42834数据集中共筛选出325个DEGs,其中上调基因205个,下调基因120个.GO生物过程分析结果显示,肺癌与肺结核DEGs主要富集的生物过程为对病毒的反应、对病毒的防御反应、干扰素γ反应等;KEGG作用通路分析结果显示,肺癌与肺结核DEGs主要富集的作用通路为甲型流感、EB病毒感染、抗原处理和呈递等.PPI网络显示,具有最高连通性的前10个核心DEGs分别为STAT1、CXCL10、MX1、ISG15、IFIH1、OASL、IFIT3、GBP1、IFI44和IFIT1,经验证10个核心DEGs在肺癌患者中的表达水平均低于肺结核患者(P均<0.05).8种肺癌与肺结核鉴别诊断模型的最优参数分别为SVM(Sigma=0.157,C=0.25)、AdaBoost(nIter=50,method=Real adaboost)、C5.0(trials=10,model=rules,winnow=TRUE)、RF(mtry=2)、NB(laplace=0,usekernel=FALSE,adjust=1)、NN(size=1,decay=0.1)、LDA(dimen=1)、LR(NA);内部验证结果显示,所有鉴别诊断模型准确率、Kappa值、灵敏度及特异度均较高,其中AdaBoost、RF、NN和LR准确率为1.000.结论 通过机器学习算法结合生物信息学方法建立了8个肺癌与肺结核早期鉴别诊断模型,其中Ada?Boost、RF、NN和LR准确性较高,具有良好的鉴别诊断能力.

诊断模型、肺癌、肺结核、机器学习算法、生物信息学技术

63

R734.2(肿瘤学)

国家自然科学基金82060622

2023-03-08(万方平台首次上网日期,不代表论文的发表时间)

共4页

11-14

相关文献
评论
暂无封面信息
查看本期封面目录

山东医药

1002-266X

37-1156/R

63

2023,63(5)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn