Kubernetes集群上深度学习负载优化

引用

摘要：

人工智能技术的快速发展和在云原生上部署应用高效等优点让越来越多的开发者和互联网企业将人工智能应用部署在Kubernetes集群上,但Kubernetes并不是主要针对深度学习而设计,对深度学习这个特定领域需要做定制优化.本文针对具有一定规模的Kubernetes集群上部署深度学习负载的场景,设计和实现了一系列优化方案,主要从深度学习所要求的数据处理、graphics processing unit(GPU)计算、分布式训练等几个方面进行优化,本文提出的优化方案覆盖了数据处理、计算等方面,这些技术极大简化人工智能负载在规模化云原生平台上的部署难度和提高运行效率.同时从实践上来看也验证了以上技术对人工智能应用有着显著的提升作用.

关键词：Kubernetes、深度学习、分布式训练、CUDA、负载优化、人工智能

所属期刊栏目：31

分类号：TP311.13;TN925.93;TM728.3

在线出版日期：2022-09-20（万方平台首次上网日期，不代表论文的发表时间）

页数：共13页

页码：114-126

英文信息展示

期刊专题