10.3969/j.issn.1673-629X.2019.08.027
基于Spark和随机森林的乳腺癌风险预测分析
现代医疗正在朝着智能健康的方向发展.在此大背景下,为了提高乳腺癌风险的发现及预测效果,文中采用大数据分析技术并基于随机森林模型,应用多个弱分类器,将多个决策树获得的结果进行集成,得到疾病发病概率;并采用管道学习方法来训练模型,基于该模型开展了致病因素分析以及结果预测.同时,通过皮尔逊相关系数和Spearman等级相关系数来进行相关度分析,研究权重较高的影响因子,提高乳腺癌风险的监测和早期预防.实验结果表明,在乳腺癌致病细胞细胞核的相关参数中,Perimeter、Texture和Concave points影响因子对于乳腺癌的致病影响程度较大,更易导致疾病的发生.基于管道训练方法所建立的模型预测精度可达99.04%,精度高、方法可靠.最终的实验研究结果对于乳腺癌风险的发现具有一定程度的参考意义.
ApacheSpark、随机森林、疾病预测、机器学习、智能健康、大数据分析
29
TP311(计算技术、计算机技术)
国家自然科学基金41471329;南京邮电大学国自基金孵化项目NY218084
2019-08-29(万方平台首次上网日期,不代表论文的发表时间)
共5页
142-146