DOI：10.3969/j.issn.1000-3428.2018.02.011

基于虚拟化的多GPU深度神经网络训练框架

引用

摘要：

针对深度神经网络在分布式多机多GPU上的加速训练问题,提出一种基于虚拟化的远程多GPU调用的实现方法.利用远程GPU调用部署的分布式GPU集群改进传统一对一的虚拟化技术,同时改变深度神经网络在分布式多GPU训练过程中的参数交换的位置,达到两者兼容的目的.该方法利用分布式环境中的远程GPU资源实现深度神经网络的加速训练,且达到单机多GPU和多机多GPU在CUDA编程模式上的统一.以手写数字识别为例,利用通用网络环境中深度神经网络的多机多GPU数据并行的训练进行实验,结果验证了该方法的有效性和可行性.

关键词：虚拟化、深度神经网络、分布式、多机多GPU、数据并行、手写数字识别

所属期刊栏目：44

分类号：TP391(计算技术、计算机技术)

资助基金：国家重点研发计划项目“面向异构融合数据流加速器的运行时系统”2016YFB1000403

在线出版日期：2018-08-24（万方平台首次上网日期，不代表论文的发表时间）

页数：共8页

页码：68-74,83

英文信息展示

期刊专题