10.11896/j.issn.1002-137X.2019.03.002
分布式机器学习平台与算法综述
分布式机器学习研究将具有大规模数据量和计算量的任务分布式地部署到多台机器上,其核心思想在于“分而治之”,有效提高了大规模数据计算的速度并节省了开销.分布式机器学习作为机器学习最重要的研究领域之一,受到各界研究者的广泛关注.鉴于分布式机器学习的研究意义和实用价值,文中系统综述了分布式机器学习的主流平台Spark,MXNet,Petuum,TensorFlow及PyTorch,并从各个角度深入总结、分析对比其特性;其次,从数据并行和模型并行两方面深入阐述了机器学习算法的分布式实现方式,而后依照整体同步并行模型、异步并行模型和延迟异步并行模型3种方法对机器学习算法的分布式计算模型进行概述;最后,从平台性能改进研究、算法优化、模型通信方式、大规模计算下算法的可扩展性和分布式环境下模型的容错性5个方面探讨了分布式机器学习在未来的研究方向.
大数据、分布式机器学习、机器学习、算法分析、并行计算
46
TP301(计算技术、计算机技术)
国家自然科学基金项目61772205;广东省科技计划项目2017B010126002,2017A010101008,2017A010101014,2017B090901061,2016B090918021,2016A010101018,2016A010119171;广州市南沙区科技计划项目2017GJ001
2019-05-24(万方平台首次上网日期,不代表论文的发表时间)
共10页
9-18