10.16208/j.issn1000-7024.2020.04.007
基于FPGA的CNN加速SoC系统设计
为提高目前硬件运行卷积神经网络(CNN)的速度和能效,针对主流CNN网络的卷积计算设计加速模块并在FPGA上实现用于加速CNN网络的SoC系统.硬件平台采用带有ARM处理器的ZCU102 FPGA开发板,系统采用处理器和加速器的结构进行设计.加速器负责卷积计算,采用分块技术并重组卷积计算循环次序,使片上缓存的数据复用率更高,减少系统与内存之间数据的传输.支持1×1到11×11的卷积核尺寸,硬件支持的激活函数为ReLU和Leaky ReLU.处理器负责控制并处理CNN网络的其它计算,使SoC系统具有通用性和灵活性.实验结果表明,在100 M Hz的工作频率下,峰值计算性能可以达到42.13 GFLOPS,相比CPU和其它FPGA计算的性能有一定提升.
卷积神经网络、图像处理、卷积加速、数据复用、软硬件协作
41
TP332(计算技术、计算机技术)
2020-04-29(万方平台首次上网日期,不代表论文的发表时间)
共6页
939-944