10.11772/j.issn.1001-9081.2020060996
面向卷积神经网络的高并行度FPGA加速器设计
大多数基于卷积神经网络(CNN)的算法都是计算密集型和存储密集型的,很难应用于具有低功耗要求的航天、移动机器人、智能手机等嵌入式领域.针对这一问题,提出一种面向CNN的高并行度现场可编程逻辑门阵列(FPGA)加速器.首先,比较研究CNN算法中可用于FPGA加速的4类并行度;然后,提出多通道卷积旋转寄存流水(MCRP)结构,简洁有效地利用了CNN算法的卷积核内并行;最后,采用输入输出通道并行+卷积核内并行的方案提出一种基于MCRP结构的高并行度CNN加速器架构,并将其部署到XILINX的XCZU9EG芯片上,在充分利用片上数字信号处理器(DPS)资源的情况下,峰值算力达到2304 GOPS.以SSD-300算法为测试对象,该CNN加速器的实际算力为1830.33 GOPS,硬件利用率达79.44%.实验结果表明,MCRP结构可有效提高CNN加速器的算力,基于MCRP结构的CNN加速器可基本满足嵌入式领域大部分应用的算力需求.
卷积神经网络、高性能、硬件加速器、并行度、现场可编程逻辑门阵列
41
TP391(计算技术、计算机技术)
军队科研资助项目;中国运载火箭技术研究院创新研发项目
2021-03-25(万方平台首次上网日期,不代表论文的发表时间)
共8页
812-819