10.3969/j.issn.1003-3254.2012.11.014
基于龙芯3A的LAPACK函数优化
针对龙芯3A体系结构,通过底层BLAS库的优化、LAPACK分块算法中分块大小的改善以及LAPACK函数的单独优化这三种途径来提升LAPACK函数的性能.用LAPACK自带的性能测试程序进行测试,实验结果表明,有240个LAPACK函数的性能提升达到30%以上,占全部性能测试函数的81%.
LAPACK、BLAS、龙芯3A、优化、双单精度
2012-12-11(万方平台首次上网日期,不代表论文的发表时间)
共5页
63-67