10.19678/j.issn.1000-3428.0052189
基于CUDA与CUBLAS的Tucker分解模块设计与实现
由于张量Tucker分解在图像处理、人脸识别与信号处理等领域中的大量应用, 使得Tucker分解算法成为目前重点研究对象.但是当前流行的Tucker分解算法需要对张量进行多次展开, 导致算法加速效率降低.针对上述问题, 提出一种应用于统一计算设备架构 (CUDA) 平台上的改进Tucker分解模块, 通过对Tucker分解算法与CUDA平台进行优化, 在省略张量展开过程的同时, 提高加速效率, 从而降低对加速系统的要求.实验结果表明, 改进Tucker分解算法在CUDA平台上的加速性能具有明显提高.
Tucker分解算法、张量分解、统一计算设备架构、图形处理单元、张量范数
45
TP391(计算技术、计算机技术)
中国电子科技集团安可系统自由硬件新技术研发项目170225
2019-05-31(万方平台首次上网日期,不代表论文的发表时间)
共6页
41-46