高性能行任务散列法GPU一般稀疏矩阵-矩阵乘法
针对一般稀疏矩阵-矩阵乘法(SpGEMM)的性能问题,提出了一种基于任务分类和低延迟散列表的图形处理器上的加速SpGEMM算法RBSPARSE.该算法由一种低成本子任务复杂度预分析方法和一种低延迟共享内存上的散列表的方法组成,以达到最大效率.通过解决负载均衡和内存延迟问题,RBSPARSE可以显著减少计算的总时间.比较了RBSparse和BHSparse,前者是最快的SpGEMM算法,结果表明RBSparse的性能是BHSparse的平均3.1倍,在最佳情况下可达到14.49倍.
稀疏矩阵-矩阵乘法、图形处理器、性能优化、散列表、共享内存
42
TP391(计算技术、计算机技术)
中央高校基本科研业务费专项资金项目2017RC42;IBM SUR项目IA2016010;提升政府治理能力大数据应用技术国家工程实验室重点支持项目;中国博士后科学基金面上项目2014M550662
2019-08-30(万方平台首次上网日期,不代表论文的发表时间)
共8页
106-113