10.3969/j.issn.2095-2163.2022.11.032
基于CUDA并行优化的矩阵相乘算法研究
矩阵相乘作为线性代数的基础运算,不仅在数学领域被大量使用,在应用数学、物理学、计算机科学、人工智能等领域也得到了广泛应用.基于CUDA并行优化的矩阵相乘算法的提出,有效解决了传统CPU低吞吐量,高延时的问题;同时,为了充分利用共享内存资源,还提出了合并内存优化、内存冲突优化以及循环延展(Loop Unrolling)等优化算法来深度挖掘并行算法性能;通过在不同硬件平台上针对不同优化算法做了充分的对比实验分析,实验结果表明基于CUDA并行优化的矩阵相乘算法具有更好的性能.
矩阵相乘、共享内存、CUDA并行优化
12
TP391(计算技术、计算机技术)
2022-12-08(万方平台首次上网日期,不代表论文的发表时间)
共5页
192-196