10.3969/j.issn.1672-9722.2019.11.012
基于X-DSP的GEMM算法实现
矩阵乘法作为高性能计算中的重要组成部分,是非常典型的计算和访存密集算法.针对特定处理器结构,优化GEMM算法,充分发挥处理器的计算效率,是非常重要的工作.论文主要在X-DSP平台上实现GEMM算法的设计,结合X-DSP的硬件资源和体系结构进行了访存优化,对存储空间进行了合理的划分,设计和实现了高性能的GEMM.通过性能测试,X-DSP的单核单精度浮点数的性能达8.49GFLOPS,多核性能达52.8GFLOPS.
多核处理器、矩阵分块、GEMM、多核并行
47
TP301.6(计算技术、计算机技术)
2020-05-11(万方平台首次上网日期,不代表论文的发表时间)
共5页
2705-2708,2745