10.11871/jfdc.issn.2096-742X.2022.02.001
TensorFlow框架中OpenCL算子的实现及集成
[目的]目前,TensorFlow这一主流机器学习框架与CUDA异构编程环境的组合在学术界与工业界得到大量使用,使用CUDA实现的TensorFlow算子是加速计算的关键.然而,TensorFlow对于OpenCL这一开放通用的异构编程标准的不支持严重限制了TensorFlow的通用性,并导致OpenCL硬件设备的算力无法充分发挥.[方法]针对此问题,本文深入探索TensorFlow的底层实现,在对TensorFlow代码结构深入分析的基础上实现了OpenCL算子,并且在2.2.0版本的TensorFlow框架实现了OpenCL算子的集成.[结果]基于上述实现,TensorFlow能够借助OpenCL算子在支持OpenCL 1.2的硬件设备上运行.同时,本文提出的优化方法也大幅提升了OpenCL算子的计算效率.[结论]通过实验表明,本文提出的方法能够有效地解决TensorFlow无法应用在OpenCL硬件设备上的问题.
TensorFlow、OpenCL、算子
4
TP391.9;TP181;TN925.93
国家重点研发计划2021YFB0300104
2022-05-09(万方平台首次上网日期,不代表论文的发表时间)
共14页
3-16