基于历史梯度平均方差缩减的协同参数更新方法
随机梯度下降算法(SGD)随机使用一个样本估计梯度,造成较大的方差,使机器学习模型收敛减慢且训练不稳定.该文提出一种基于方差缩减的分布式SGD,命名为DisSAGD.该方法采用历史梯度平均方差缩减来更新机器学习模型中的参数,不需要完全梯度计算或额外存储,而是通过使用异步通信协议来共享跨节点的参数.为了解决全局参数分发存在的"更新滞后"问题,该文采用具有加速因子的学习速率和自适应采样策略:一方面当参数偏离最优值时,增大加速因子,加快收敛速度;另一方面,当一个工作节点比其他工作节点快时,为下一次迭代采样更多样本,使工作节点有更多时间来计算局部梯度.实验表明:DisSAGD显著减少了循环迭代的等待时间,加速了算法的收敛,其收敛速度比对照方法更快,在分布式集群中可以获得近似线性的加速.
梯度下降、机器学习、分布式集群、自适应采样、方差缩减
43
TN911.7;TP391
国家自然科学基金61807027
2021-04-23(万方平台首次上网日期,不代表论文的发表时间)
共9页
956-964