基于脉动阵列的层融合注意力模型加速器结构
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.3969/j.issn.1007-130X.2023.05.005

基于脉动阵列的层融合注意力模型加速器结构

引用
注意力机制最近在深度神经网络中表现出优越的性能,但其计算包含复杂的数据流,内存开销和计算量大,需要定制加速器来优化推理计算.提出一种针对注意力机制计算的加速器结构.采用基于硬件控制的灵活分块方法,将模型中的巨大矩阵分成硬件亲和的计算块,使块矩阵的计算匹配加速器脉动阵列;提出基于双步softmax函数分解计算的层融合计算方法,有效减少了注意力模型计算对内存的访问.采用硬件描述语言HDL设计实现了细粒度计算调度的层融合注意力模型加速器结构.基于XILINX FPGA器件和HLS工具进行了性能评估.相同设置下,与CPU相比延迟加速了4.9倍,与GPU相比能效提升了1.24倍.

脉动阵列、注意力机制、层融合、加速器结构、矩阵分块、柔性最大值传输函数

45

TP391(计算技术、计算机技术)

国防基础科研计划WDZC20215250103

2023-06-06(万方平台首次上网日期,不代表论文的发表时间)

共8页

802-809

相关文献
评论
暂无封面信息
查看本期封面目录

计算机工程与科学

1007-130X

43-1258/TP

45

2023,45(5)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn