基于Zynq7000 FPGA异构平台的YOLOv2加速器设计与实现
当前,卷积神经网络已在图像分类、目标检测等计算机视觉领域被广泛应用.然而,在前向推断阶段,许多实际应用往往具有低延时和严格的功耗限制.针对该问题,采用参数重排序、多通道数据传输等优化策略,设计并实现了一种基于FPGA的SIMD卷积神经网络加速器架构.以YOLOv2目标检测算法为例,介绍了将卷积神经网络模型映射到FPGA上的完整流程;对加速器的性能和资源耗费进行深入分析和建模,将实际传输延时考虑在内,缩小了加速器理论时延与实际时延的误差;改进了加速器架构中的输入和输出模块,有效提高了总线带宽的实际利用率.实验结果表明,在Zedboard上获得了30.15 GOP/s的性能,与Xeon E5-2620 v4 CPU相比,能效是其120.4倍,性能是其7.3倍;与双核ARM-A9 CPU相比,能效是其86倍,性能是其112.9倍.
硬件加速器、现场可编程门阵列(FPGA)、卷积神经网络(CNN)、高层次综合
13
TP183;TP391.41(自动化基础理论)
The Open Foundation of State Key Laboratory of Mathematical Engineering and Advanced Computing under Grant No. 2017A08
2019-11-05(万方平台首次上网日期,不代表论文的发表时间)
共17页
1677-1693