申威26010众核处理器上一维FFT实现与优化
根据申威26010众核处理器的特点提出了基于两层分解的一维FFT众核并行算法.该算法基于迭代的Stockham FFT计算框架和Cooley-Tukey FFT算法,将大规模FFT分解成一系列的小规模FFT来计算,并通过设计合理的任务划分方式、寄存器通信、双缓冲以及SIMD向量化等与计算平台相关的优化方法来提高FFT的计算性能.最后对所提出算法的性能进行了测试,相比于单主核上运行的FFTW3.3.4库,获得了平均44.53x的加速比,最高加速比可达56.33x,且其带宽利用率最高可达83.45%.
申威26010处理器、一维FFT、两层分解、Cooley-Tukey、众核并行
31
TP301(计算技术、计算机技术)
国家重点研发计划;北京市自然科学基金
2020-11-10(万方平台首次上网日期,不代表论文的发表时间)
共13页
3184-3196