基于FPGA的卷积神经网络硬件加速器设计
针对卷积神经网络(CNN)计算量大、计算时间长的问题,该文提出一种基于现场可编程逻辑门阵列(FPGA)的卷积神经网络硬件加速器.首先通过深入分析卷积层的前向运算原理和探索卷积层运算的并行性,设计了一种输入通道并行、输出通道并行以及卷积窗口深度流水的硬件架构.然后在上述架构中设计了全并行乘法-加法树模块来加速卷积运算和高效的窗口缓存模块来实现卷积窗口的流水线操作.最后实验结果表明,该文提出的加速器能效比达到32.73 GOPS/W,比现有的解决方案高了34%,同时性能达到了317.86 GOPS.
卷积神经网络、硬件加速、现场可编程逻辑门阵列、计算并行、深度流水
41
TP331(计算技术、计算机技术)
广东省科技计划项目2014B090910002
2019-12-13(万方平台首次上网日期,不代表论文的发表时间)
共7页
2599-2605