10.3969/j.issn.1004-373X.2013.04.023
GPU矩阵乘法和FFT算法的性能优化
当前GPU的体系结构为高性能计算提供了良好的可编程性.为了得到众核GPU高性能程序设计的一般方法,探索GPU程序性能优化技术,对在GPU上进行高性能程序设计的经验进行了总结.通过基准测试,得到GPU性能指标,对GPU程序设计进行指导.使用CUDA对单精度矩阵乘法和FFT进行性能优化,前一个算法是计算密集型任务,后一个算法是带宽密集型任务.在NVIDIA GeForce GTX280 GPU上,矩阵乘法算法达到393 Gflop/s的峰值速度,比CUBLAS 2.0数学库提高了5%;对于一些维度的FFT计算也取得了较好的性能.
GPU程序设计、矩阵乘法、快速傅里叶变换、性能优化技术
36
TN911-34;TP312
国家"863"高技术研究发展计划项目基金2012AA010902;国家自然科学基金资助项目61240045,10571178
2013-03-28(万方平台首次上网日期,不代表论文的发表时间)
共5页
80-84