10.3969/j.issn.1007-130X.2023.05.005
基于脉动阵列的层融合注意力模型加速器结构
注意力机制最近在深度神经网络中表现出优越的性能,但其计算包含复杂的数据流,内存开销和计算量大,需要定制加速器来优化推理计算.提出一种针对注意力机制计算的加速器结构.采用基于硬件控制的灵活分块方法,将模型中的巨大矩阵分成硬件亲和的计算块,使块矩阵的计算匹配加速器脉动阵列;提出基于双步softmax函数分解计算的层融合计算方法,有效减少了注意力模型计算对内存的访问.采用硬件描述语言HDL设计实现了细粒度计算调度的层融合注意力模型加速器结构.基于XILINX FPGA器件和HLS工具进行了性能评估.相同设置下,与CPU相比延迟加速了4.9倍,与GPU相比能效提升了1.24倍.
脉动阵列、注意力机制、层融合、加速器结构、矩阵分块、柔性最大值传输函数
45
TP391(计算技术、计算机技术)
国防基础科研计划WDZC20215250103
2023-06-06(万方平台首次上网日期,不代表论文的发表时间)
共8页
802-809