高效训练百万亿参数预训练模型的系统挑战和对策
随着预训练模型规模的急剧增长,训练此类模型需要海量的计算和存储能力.为此,本工作在新一代国产高性能计算机上训练了一个174万亿参数的超大规模预训练模型,模型参数量可与人脑中的突触数量相媲美.重点讨论在训练这一超大规模预训练模型中遇到的几个关键系统挑战:如何选取高效并行策略,如何进行高效数据存储,如何选取合适的数据精度,以及如何实现动态负载均衡,并总结了针对上述挑战的一些解决方法.
人工智能、超级计算机、混合专家、异构系统
28
R851.3;TP393;D83
2022-05-25(万方平台首次上网日期,不代表论文的发表时间)
共8页
51-58