10.3969/j.issn.1000-1220.2012.06.038
奇偶合并排序的数据级并行实现
针对奇偶合并排序中存在的巨大数据级并行性潜力,通过将其实现于提供了强大数据级并行性的GPU处理器之上而获取较高的加速比.同时,针对OpenCL不支持各工作组间的工作线程的同步问题,提出两种解决方法,一种是通过主机程序控制迭代过程,从而完全避免所有工作线程对于同步操作的需求;另一种是通过桶划分预处理技术将对于同步操作的需求控制在单个工作组,然后利用单个工作组提供的各工作线程间的同步机制以正确的处理同步操作.实验结果表明,按照本文方法实现的程序性能相对于C++ STL库中的sort实现有着明显的提高.
奇偶合并排序、数据级并行、通用目的计算、图形处理器、OpenCL
33
TP391(计算技术、计算机技术)
专用集成电路与系统国家重点实验室;AMD大学合作计划基金
2012-11-16(万方平台首次上网日期,不代表论文的发表时间)
共7页
1343-1349