10.11871/jfdc.issn.2096-742X.2019.01.007
Angel+:基于Angel的分布式机器学习平台
[目的]随着大数据时代的来临,数据变得高维、稀疏,机器学习模型也变得复杂、高维,因此也给分布式机器学习系统带来了很多挑战.尽管研究人员已经开发了很多高性能的机器学习系统,比如TensorFlow、PyTorch、XGBoost等,但是这些系统存在以下两个问题:(1)不能与现有的大数据系统很好的结合;(2)不够通用,这些系统往往是为了某一类机器学习算法设计.[方法]为了解决以上两个挑战,本文介绍Angel+:一个基于参数服务器架构的分布式机器学习平台.[结果]Angel+能够高效的支持现有的大数据系统以及机器学习系统——依赖于参数服务器处理高维模型的能力,Angel+能够以无侵入的方式为大数据系统(比如Apache Spark)提供高效训练超大机器学习模型的能力,并且高效的运行已有的分布式机器学习系统(比如PyTorch).此外,针对分布式机器学习中通信开销大和掉队者问题,Angel+也提供了模型平均、梯度压缩和异构感知的随机梯度下降解法等.[结论]笔者结合Angel+开发了很多高效、易用的机器学习模型,并且通过实验验证了Angel+平台的高效性.
分布式机器学习平台、参数服务器、大数据处理系统、分布式机器学习系统
1
国家基金:国家重点研发计划重点专项;国家自然科学基金
2020-05-11(万方平台首次上网日期,不代表论文的发表时间)
共10页
63-72