10.16208/j.issn1000-7024.2021.06.012
基于FPGA的多核可扩展卷积加速器设计
为解决卷积神经网络计算效率和能效较低的问题,提出并设计一种使用定点数据作为输入的卷积加速器.加速器支持动态量化的8 bits定点数据的卷积计算,通过采用分块计算的策略和改进的循环计算顺序,有效提高计算效率;支持激活、批标准化(BN)、池化和全连接等计算;基于软硬件协同设计的思路,设计包含卷积加速器和ARM处理器在内的SoC系统.提出一种将加速器进行多核扩展的方法,提高算力和移植便捷性.将加速器部署在Xilinx ZCU102开发板上,其中单核加速器的算力达到了153.6 GOP/s,在计算核数目增加到4个和8个的情况下,算力分别增至614.4 GOP/s和1024 GOP/s.
卷积加速、数据复用、并行计算、多核扩展、软硬件协作
42
TP332(计算技术、计算机技术)
国家自然科学基金91846303
2021-07-07(万方平台首次上网日期,不代表论文的发表时间)
共7页
1592-1598