10.3969/j.issn.1000-3428.2011.21.082
LDLT分解协处理器的并行结构研究
为提高LDLT分解协处理器的性能,基于FPGA平台,研究其并行结构.分析循环片间的数据依赖关系,提出LDL分解细粒度并行算法,并在可扩展一维阵列处理器中加以实现,利用主机、算法加速器组成单精度浮点LDLT分解协处理器的并行结构.实验结果表明,与运行在2.50 GHz Pentium微处理器上的C代码相比,该协处理器可获得32.03倍~43.25倍的性能提升.
LDLT分解、现场可编程门阵列、细粒度并行、协处理器
37
TP311.12(计算技术、计算机技术)
国家自然科学基金资助项目60921062,60903057
2012-03-16(万方平台首次上网日期,不代表论文的发表时间)
共4页
241-243,254