非光滑凸情形Adam型算法的最优个体收敛速率
Adam是目前深度神经网络训练中广泛采用的一种优化算法框架,同时使用了自适应步长和动量技巧,克服了SGD的一些固有缺陷.但即使对于凸优化问题,目前Adam也只是在线学习框架下给出了和梯度下降法一样的regret界,动量的加速特性并没有得到体现.这里针对非光滑凸优化问题,通过巧妙选取动量和步长参数,证明了Adam的改进型具有最优的个体收敛速率,从而说明了Adam同时具有自适应和加速的优点.通过求解l1范数约束下的hinge损失问题,实验验证了理论分析的正确性和在算法保持稀疏性方面的良好性能.
机器学习、AdaGrad算法、RMSProp算法、动量方法、Adam算法、AMSGrad算法、个体收敛速率、稀疏性
15
TP181(自动化基础理论)
国家自然科学基金项目61673394;62076252
2021-05-24(万方平台首次上网日期,不代表论文的发表时间)
共7页
1140-1146