10.19678/j.issn.1000-3428.0052372
面向深度学习推理的矩阵乘法加速器设计
为满足深度学习推理中对不同规模矩阵乘法的计算需求,提出一种基于Zynq SoC平台的整数矩阵乘法加速器.采用基于总线广播的并行结构,充分利用片上数据的重用性并最小化中间累加结果的移动范围,以降低外部DRAM的访问需求.通过动态调整矩阵分块的大小,使加速器在计算形状不规则的矩阵乘时保持较高效率.实验结果表明,在DeepBench测试基准下,该加速器可对双核ARM Cortex-A9 CPU的矩阵乘运算实现8.4倍的加速效果.
整数矩阵乘法、加速器、可编程片上系统、深度学习推理、分块方案、DeepBench测试
45
TP391(计算技术、计算机技术)
国家自然科学基金61732010
2019-11-11(万方平台首次上网日期,不代表论文的发表时间)
共6页
40-45