DOI：10.11772/j.issn.1001-9081.2020060996

面向卷积神经网络的高并行度FPGA加速器设计

引用

摘要：

大多数基于卷积神经网络(CNN)的算法都是计算密集型和存储密集型的,很难应用于具有低功耗要求的航天、移动机器人、智能手机等嵌入式领域.针对这一问题,提出一种面向CNN的高并行度现场可编程逻辑门阵列(FPGA)加速器.首先,比较研究CNN算法中可用于FPGA加速的4类并行度;然后,提出多通道卷积旋转寄存流水(MCRP)结构,简洁有效地利用了CNN算法的卷积核内并行;最后,采用输入输出通道并行+卷积核内并行的方案提出一种基于MCRP结构的高并行度CNN加速器架构,并将其部署到XILINX的XCZU9EG芯片上,在充分利用片上数字信号处理器(DPS)资源的情况下,峰值算力达到2304 GOPS.以SSD-300算法为测试对象,该CNN加速器的实际算力为1830.33 GOPS,硬件利用率达79.44％.实验结果表明,MCRP结构可有效提高CNN加速器的算力,基于MCRP结构的CNN加速器可基本满足嵌入式领域大部分应用的算力需求.

关键词：卷积神经网络、高性能、硬件加速器、并行度、现场可编程逻辑门阵列

所属期刊栏目：41

分类号：TP391(计算技术、计算机技术)

资助基金：军队科研资助项目;中国运载火箭技术研究院创新研发项目

在线出版日期：2021-03-25（万方平台首次上网日期，不代表论文的发表时间）

页数：共8页

页码：812-819

英文信息展示

期刊专题