FMM算法中PP问题在GPU上的研究与实现
针对目前快速多极子算法中PP问题在图形处理器上实现的缺点,如负载不平衡和计算规模受显存大小的限制等,提出了一种新的基于统一计算设备架构平台的实现方法.采取以Box为并行单位、在内存中开辟缓冲区与多线程流水计算等方式,使其适合于CPU和GPU组成的异构体系结构,充分利用CUDA编程模型的高并行性加速PP问题.实验结果表明,采用CUDA加速后,PP问题的计算时间明显降低,提高了整个FMM模拟效率,适合于各种多体问题的实时模拟.
图形处理器、异构体系结构、统一计算架构、快速多极子算法、PP问题
32
TP391.9(计算技术、计算机技术)
上海市重点学科建设基金项目J50103
2012-01-14(万方平台首次上网日期,不代表论文的发表时间)
共5页
3050-3053,3169