DOI：10.3969/j.issn.1007-130X.2023.05.005

基于脉动阵列的层融合注意力模型加速器结构

引用

摘要：

注意力机制最近在深度神经网络中表现出优越的性能,但其计算包含复杂的数据流,内存开销和计算量大,需要定制加速器来优化推理计算.提出一种针对注意力机制计算的加速器结构.采用基于硬件控制的灵活分块方法,将模型中的巨大矩阵分成硬件亲和的计算块,使块矩阵的计算匹配加速器脉动阵列;提出基于双步softmax函数分解计算的层融合计算方法,有效减少了注意力模型计算对内存的访问.采用硬件描述语言HDL设计实现了细粒度计算调度的层融合注意力模型加速器结构.基于XILINX FPGA器件和HLS工具进行了性能评估.相同设置下,与CPU相比延迟加速了4.9倍,与GPU相比能效提升了1.24倍.

关键词：脉动阵列、注意力机制、层融合、加速器结构、矩阵分块、柔性最大值传输函数

所属期刊栏目：45

分类号：TP391(计算技术、计算机技术)

资助基金：国防基础科研计划WDZC20215250103

在线出版日期：2023-06-06（万方平台首次上网日期，不代表论文的发表时间）

页数：共8页

页码：802-809

英文信息展示

期刊专题