嵌入式神经网络加速器及SoC芯片
为了提高人工智能加速器的运算效率和功耗效率,提出了一种新的卷积神经网络(CNN)加速器结构,并实现了神经网络存算一体的方法.首先,设计出一种神经网络架构,其具有高度并行计算以及乘加器(MAC)单元高效运行的特性.其次,为了降低功耗和面积,采用了对称的静态随机存储器(SRAM)阵列和可调数据流向结构,实现多层网络在SRAM中高效计算,减少了访问外部存储器次数,降低了功耗,提高运算效率.通过中芯国际40 nm工艺,完成了系统芯片(SoC)设计、流片与测试.结果 表明运算速度在500 MHz下,算力可达288 GOPS;全速运行功耗89.4 mW;面积1.514mm2;算力功耗比3.22 TOPS/W;40 nm算力面积比为95.1 GOPS/mm2.与已有文献的相比,算力功耗至少提升4.54%,算力面积至少提升134%,对于嵌入式场景应用较适合.
人工智能;加速器;卷积神经网络;边缘侧;卷积神经处理器
42
TH166;TN47;TP391.4
2021-12-21(万方平台首次上网日期,不代表论文的发表时间)
共9页
155-163