10.3969/j.issn.1003-0077.2018.07.005
基于数据并行的神经语言模型多卡训练分析
数据并行训练神经语言模型,旨在不改变网络结构的同时,大幅度降低训练所带来的时间消耗.但由于多设备之间频繁的数据传输,使得整体加速效果并不理想.该文通过实验对比All-Reduce算法和基于采样的梯度更新策略在数据传输上的加速效果,使用了四块NVIDIA TITAN X(Pascal)GPU设备在循环神经语言模型上进行训练,两种方法分别可获得约25% 和41% 的速度提升.同时,该文还针对数据并行方法的适用性以及不同的硬件设备连接方式对传输速度的影响进行了讨论.
数据并行、神经语言模型、All-Reduce、采样
32
TP391(计算技术、计算机技术)
国家自然科学基金61672138;国家自然科学基金61432013;中央高校基本科研业务费
2018-08-28(万方平台首次上网日期,不代表论文的发表时间)
共7页
37-43