面向飞腾多核处理器的Winograd快速卷积算法优化

引用

摘要：

随着深度学习的快速发展,卷积神经网络已广泛应用于计算机视觉、自然语言处理等人工智能领域中.Winograd快速卷积算法因能有效降低卷积神经网络中卷积操作的计算复杂度而受到广泛关注.随着国防科技大学自主研制的飞腾多核处理器在智能领域的推广应用,对面向飞腾多核处理器的高性能卷积实现提出了强烈需求.针对飞腾多核处理器的体系结构特征与Wingorad快速卷积算法的计算特点,提出了一种高性能并行Winograd快速卷积算法.该算法不依赖通用矩阵乘库函数,由卷积核转换、输入特征图转换、逐元素乘、输出特征图逆变换等4个部分构成,融合设计了4个部分的数据操作,并设计了与之配套的数据布局、多级并行数据转换算法与多级并行矩阵乘算法,实现访存性能以及算法整体性能的提升.在两款飞腾多核处理器上的测试结果显示,与开源库ACL和NNPACK中的Winograd快速卷积实现相比,该算法分别能获得1.05～16.11倍与1.66～16.90倍的性能加速;集成到开源框架Mxnet后,该算法使得VGG16网络的前向计算获得了3.01～6.79倍的性能加速.

关键词：多核CPU、深度学习、卷积神经网络、Winograd算法、并行算法

所属期刊栏目：57

分类号：TP183(自动化基础理论)

资助基金：“核高基”国家科技重大专项基金项目2018ZX01028101

在线出版日期：2020-06-22（万方平台首次上网日期，不代表论文的发表时间）

页数：共12页

页码：1140-1151

英文信息展示

期刊专题