DOI：10.11999/JEIT200061

基于历史梯度平均方差缩减的协同参数更新方法

引用

摘要：

随机梯度下降算法(SGD)随机使用一个样本估计梯度,造成较大的方差,使机器学习模型收敛减慢且训练不稳定.该文提出一种基于方差缩减的分布式SGD,命名为DisSAGD.该方法采用历史梯度平均方差缩减来更新机器学习模型中的参数,不需要完全梯度计算或额外存储,而是通过使用异步通信协议来共享跨节点的参数.为了解决全局参数分发存在的"更新滞后"问题,该文采用具有加速因子的学习速率和自适应采样策略:一方面当参数偏离最优值时,增大加速因子,加快收敛速度;另一方面,当一个工作节点比其他工作节点快时,为下一次迭代采样更多样本,使工作节点有更多时间来计算局部梯度.实验表明:DisSAGD显著减少了循环迭代的等待时间,加速了算法的收敛,其收敛速度比对照方法更快,在分布式集群中可以获得近似线性的加速.

关键词：梯度下降、机器学习、分布式集群、自适应采样、方差缩减

所属期刊栏目：43

分类号：TN911.7;TP391

资助基金：国家自然科学基金61807027

在线出版日期：2021-04-23（万方平台首次上网日期，不代表论文的发表时间）

页数：共9页

页码：956-964

英文信息展示

期刊专题