10.19678/j.issn.1000-3428.0054014
一个轻量级分布式机器学习系统的设计与实现
为满足大规模机器学习系统高定制化、低耦合与低资源消耗的需求,设计并实现一个轻量级分布式机器学习系统.采用模块化分层设计并移植多种主流的机器学习与深度学习算法,同时提出参数服务器与动态 Ring-AllReduce 2种可扩展梯度同步方案,对算法模型进行并行训练加速.实验结果表明,该系统对于稀疏与稠密模型均有较好的扩展性与稳定性,参数服务器训练可达到与单机相近的准确率与收敛效果,Ring-AllReduce也能在8 节点模型上实现相对单节点模型6 倍的训练加速.
机器学习系统、分布式系统、并行计算、集合通信、模块化
46
TP18(自动化基础理论)
中国科学院"十三五"信息化重大专项"中国科学院科研教育态势感知服务"XXH13504-03
2020-03-28(万方平台首次上网日期,不代表论文的发表时间)
共7页
201-207