10.3778/j.issn.1673-9418.2011092
Cooley-Tukey FFT算法高性能实现与优化研究
快速傅里叶变换(FFT)算法是处理器基础软件生态的重要组成部分,在工程、科学、物理和数学等领域的应用十分广泛,且这些领域对FFT算法的性能也提出了越来越高的要求.研究FFT算法在ARMv8和X86-64上的高性能实现特别是大基高性能的实现,提高FFT算法的计算性能日益重要.针对ARMv8和X86-64计算平台的架构特征,研究FFT算法的高性能实现和优化方法.通过蝶形网络优化、大基网络级数降低、大基蝶形计算优化、SIMD汇编优化以及寄存器使用策略优化等方法的应用,有效提升了FFT算法的性能,特别是提升了FFT大基的计算性能,解决了寄存器不够用的性能瓶颈,并最终总结了一套Cooley-Tukey FFT算法的高性能实现策略和优化方案.实验结果表明,在ARM、X86-64处理器上,实现的FFT算法,较ARMPL、Intel MKL和FFTW性能有明显提升,较中小基性能也有明显提升.
快速傅里叶变换(FFT)、ARMv8、X86-64、FFTW、SIMD优化
16
TP311(计算技术、计算机技术)
国家重点研发计划;国家重点研发计划;国家重点研发计划;国家自然科学基金;北京市自然科学基金
2022-06-27(万方平台首次上网日期,不代表论文的发表时间)
共12页
1304-1315