10.3969/j.issn.1007-130X.2016.09.002
一种支持优化分块策略的矩阵乘加速器设计
在许多应用领域中,大规模浮点矩阵乘法往往是最耗时的计算核心之一.在新兴的应用中经常存在至少有一个维度很小的大规模矩阵,我们把具备这种特性的矩阵称为非均匀矩阵.由于FPGA上用以存储中间结果的片上存储器容量十分有限,计算大规模矩阵乘法时往往需要将矩阵划分成细粒度的子块计算任务.当加速非均匀矩阵乘法时,由于只支持固定分块大小,大多数现有的线性阵列结构的硬件矩阵乘法器将遭受很大的性能下降.为了解决这个问题,提出了一种有效的优化分块策略.在此基础上,在Xilinx公司的Zynq XC7Z045 FPGA芯片上实现了一个支持可变分块的矩阵乘法器.通过集成224个处理单元,该矩阵乘法器在150 MHz的时钟频率下对于实际应用中的非均匀矩乘达到了48 GFLOPS的实测性能,而所需带宽仅为4.8 GB/s.实验结果表明,我们提出的分块策略相比于传统的分块算法实现了高达12%的性能提升.
FPGA、非均匀矩阵、矩阵乘法、分块策略
38
TP391(计算技术、计算机技术)
国家863计划2012AA012706;国家自然科学基金61272145
2016-10-17(万方平台首次上网日期,不代表论文的发表时间)
共7页
1748-1754