DOI：10.3969/j.issn.1000-1220.2019.12.011

面向深度学习训练任务的自适应任务分配方法

引用

摘要：

随着深度学习的任务训练对计算资源的需求不断提高,采用GPU集群来训练深度学习任务成为首选.但基于集群的一些深度学习框架都需要手动设置训练方法以及环境资源,这样往往不能保证训练任务的耗时最短.本文针对该问题提出一种自适应任务分配方法,可以根据不同的训练模型,自动选择最佳的分配方案.本方法首先根据Roofline模型并结合训练模型,计算出每个计算节点的理论计算时间,然后再考虑不同训练方式过程中的通信时间和其它额外开销,最后根据组合优化的原理,从而确定深度学习任务的训练方式以及所涉及的计算节点.实验表明,本方法在异构GPU集群下训练Alexnet网络,可以表现出91. 6%的高准确率.

关键词：深度学习、自适应、任务分配方法、GPU集群

所属期刊栏目：40

分类号：TP301(计算技术、计算机技术)

资助基金：国家自然科学基金项目61572325,60970012;高等学校博士学科点专项科研博导基金项目20113120110008;上海重点科技攻关项目14511107902,16DZ1203603;上海市工程中心建设项目GCZX14014;上海智能家居大规模物联共性技术工程中心项目GCZX14014;上海市一流学科建设项目XTKX2012;沪江基金研究基地专项项目C14001

在线出版日期：2020-01-06（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：2531-2537

英文信息展示

期刊专题