10.19678/j.issn.1000-3428.0062607
面向深度学习图像分类的GPU并行方法研究
针对深度学习图像分类场景中多GPU并行后传输效率低的问题,提出一种低时间复杂度的Ring All Reduce改进算法.通过分节点间隔配对原则优化数据传输流程,缓解传统参数服务器并行结构的带宽损耗.基于数据并行难以支撑大规模网络参数及加速延缓的问题,根据深度学习主干网络所包含的权重参数低于全连接层权重参数、同步开销小、全连接层权重大与梯度传输开销过高等特点,提出GPU混合并行优化算法,将主干网络进行数据并行,全连接层进行模型并行,并通过改进的Ring All Reduce算法实现各节点之间的并行后数据通信,用于基于深度学习模型的图像分类.在Cifar10和mini ImageNet两个公共数据集上的实验结果表明,该算法在保持分类精度不变的情况下可以获得更好的加速效果,相比数据并行方法,可达到近45%的提升效果.
GPU并行、Ring All Reduce算法、数据并行、模型并行、深度学习、图像分类
49
TP338.6(计算技术、计算机技术)
国家重点研发计划;国家自然科学基金
2023-01-16(万方平台首次上网日期,不代表论文的发表时间)
共10页
191-200