面向深度学习图像分类的GPU并行方法研究

引用

摘要：

针对深度学习图像分类场景中多GPU并行后传输效率低的问题,提出一种低时间复杂度的Ring All Reduce改进算法.通过分节点间隔配对原则优化数据传输流程,缓解传统参数服务器并行结构的带宽损耗.基于数据并行难以支撑大规模网络参数及加速延缓的问题,根据深度学习主干网络所包含的权重参数低于全连接层权重参数、同步开销小、全连接层权重大与梯度传输开销过高等特点,提出GPU混合并行优化算法,将主干网络进行数据并行,全连接层进行模型并行,并通过改进的Ring All Reduce算法实现各节点之间的并行后数据通信,用于基于深度学习模型的图像分类.在Cifar10和mini ImageNet两个公共数据集上的实验结果表明,该算法在保持分类精度不变的情况下可以获得更好的加速效果,相比数据并行方法,可达到近45％的提升效果.

关键词：GPU并行、Ring All Reduce算法、数据并行、模型并行、深度学习、图像分类

所属期刊栏目：49

分类号：TP338.6(计算技术、计算机技术)

资助基金：国家重点研发计划;国家自然科学基金

在线出版日期：2023-01-16（万方平台首次上网日期，不代表论文的发表时间）

页数：共10页

页码：191-200

英文信息展示

期刊专题