10.3969/j.issn.1003-3254.2011.01.035
多核龙芯3A上二级BLAS库的优化
针对龙芯3A体系结构以及二级BLAS库函数的特点,在指令级、存储级和线程级抽取并行方案,总结了一些合适的优化方法,并对其进行了定量的分析.实验表明,这些优化可以将二级BLAS函数单线程的性能提升20%以上,多线程下也可以得到2.5倍左右的加速比,这对今后多核龙芯上的系统软件优化工作有着一定的帮助.
龙芯3A、BLAS、优化、Gemv、Ger、访存、多线程
20
TP3;TN4
国家高技术研究发展计划8632008AA010902;自然科学基金60833004
2011-04-28(万方平台首次上网日期,不代表论文的发表时间)
共5页
163-167