基于OpenCL 的Viola-Jones人脸检测算法性能优化研究
Viola-Jones 人脸检测算法是最为成功的可实用的人脸检测算法之一.然而,随着该算法所在领域数据处理规模的不断扩大,现有算法的性能已经越来越无法满足日益增长的交互性与实时性要求.使用 GPU 计算平台提升该算法性能,以满足日益增长的实时性要求已经成为研究热点.然而,该算法在对 GPU 的实现和优化中,存在线程间负载不均衡的非规则特性,如果仅使用传统的优化方法,则难以在 GPU 计算平台上达到较高性能.针对此种情况,该文构建了针对此类算法的并行优化框架,通过 Uberkernel、粗粒度并行、Persistent Thread、线程与数据的动态映射、全局及本地队列等优化方法的应用,突破了负载不均衡非规则特性导致的性能瓶颈,大幅提高了人脸检测算法在 GPU 计算平台上的性能.同时,该文通过对不同 GPU 计算平台关键性能参数的定义、抽取和传递,实现了该算法在不同 GPU 计算平台间的性能移植.实验结果表明,与 OpenCV2.4中经过高度优化的 CPU 版本在 Intel Xeon X5550 CPU 上的性能相比,优化后的算法在 AMD HD7970和 NVIDIA GTX680两个不同 GPU 计算平台上分别达到了11.24~20.27和9.24~17.62倍的加速比,不仅实现了高性能,而且实现了在不同 GPU 计算平台间的性能移植.
OpenCL、负载不均衡、任务队列、线程与任务动态映射、性能移植
39
TP302(计算技术、计算机技术)
国家自然科学基金61133005,61272136,61521092,61402441资助.
2016-10-14(万方平台首次上网日期,不代表论文的发表时间)
共15页
1775-1789