10.3969/j.issn.1007-130X.2023.01.001
一种矩阵块间提前切换的脉动阵列优化策略
AI应用对硬件算力的需求逐年增加,驱使着AI加速器不断向更高的性能演化.研究表明,AI应用的主要运算形式可以转化为矩阵乘运算,脉动阵列因为在矩阵乘运算上的独特优势,使其成为了主流矩阵乘加速技术之一.然而,矩阵在注入和流出脉动阵列时存在一定的流水线启动和排空开销,特别是支持训练的浮点脉动阵列,其MAC延时往往大于1,矩阵块间切换不及时会导致PE利用率急剧下降.针对上述问题,基于典型应用场景进行理论分析,提出了一种矩阵块间提前切换策略,能够精确计算出各种情况下的矩阵块间最优切换时刻.同时,还实现了RTL设计.经过实验对比可知,优化后的脉动阵列增加的硬件开销微乎其微,但在所有场景中均能得到性能提升.
脉动阵列、AI、矩阵乘、加速器、PE利用率
45
TP393(计算技术、计算机技术)
国家自然科学基金62002366
2023-02-15(万方平台首次上网日期,不代表论文的发表时间)
共9页
1-9