10.3969/j.issn.1007-130X.2016.09.001
利用Stencil建模及评估Intel IMCI vgather指令
Intel Xeon Phi协处理器的指令集IMCI引入了硬件实现的vgather指令,旨在帮助512位SIMD寄存器访问非连续内存地址上的数据.然而实验结果显示,vgather很有可能成为应用在Xeon Phi协处理器上关键的性能瓶颈之一.基于以上结论,针对vgather的性能建模可以帮助用户深入地掌握和理解Xeon Phi协处理器的性能特性.在实验方法上,本文方法与现存的通过程序段内嵌入汇编代码进行数据统计不同,使用PAPI等性能分析工具直接收集硬件计数器的统计结果,作为模型的实验数据.本文的性能模型基于AGI事件次数和根据VPU DATA READ次数估算得出的vgather所导致的平均延迟构建而成.该模型能够对Xeon Phi应用代码中由vgather所导致的总延迟进行预测.最终,为了验证模型预测的准确性,将该模型应用在三维7点stencil应用代码上,预测结果显示,vgather耗时占计算总耗时的约40%.再将该结果与利用intrinsics指令去除vgather后的计算耗时进行了对比验证,结果显示模型预测准确.基于上述结论,采用硬件计数器的统计结果在Xeon Phi协处理器上针对vgather构建了性能模型.同时,通过与其他平台的vgather对比,认为该模型也可以应用在同样具备vgather的Intel CPU处理器平台上.
性能建模、vgather、Xeon Phi、硬件计数器
38
TP303(计算技术、计算机技术)
国家863计划2014AA01A302;日本学术振兴会RONPAKU Fellowship资助
2016-10-17(万方平台首次上网日期,不代表论文的发表时间)
共7页
1741-1747