10.3969/j.issn.1008-0570.2008.24.123
C870流处理器上的大型矩阵计算方法
C870流处理器采用三级存储层次、三级访问模式.其流处理结构特别适合于数据并行性好、全局数据重用较少的计算密集型应用.根据C870流处理器的软硬件结构,针对高度的浮点密集运算、海量数据元素并行计算的问题,本文提出使用计算来隐藏内存访问的延迟,从而提高存储系统的带宽.并首次提出了在C870流处理器上的使用芯片上共享内存(On-chip Shared Memory)的大型矩阵的计算方法,并用5000*5000和2000*2000的方形矩阵进行优化实验,实验结果证明了使用芯片上共享内存优化计算,可以使浮点性能提高7倍多.
C870、处理器、矩阵计算、芯片上共享内存
24
TP302.7(计算技术、计算机技术)
2008-10-21(万方平台首次上网日期,不代表论文的发表时间)
共3页
303-305