10.13718/j.cnki.xdzk.2022.01.010
基于Bandit反馈的在线分布式镜面下降算法
针对在线分布式优化中一类损失函数梯度信息获取困难的问题,提出一种基于Bandit反馈的在线分布式镜面下降(ODMD-B)算法.首先,推广在线分布式镜面梯度下降(ODMD)算法到免梯度的情形,提出了一种新的仅利用函数值信息来对梯度进行估计的方法即Bandit反馈,其关键在于利用损失函数值信息逼近梯度信息,能有效克服梯度信息难以获取或计算复杂的困难.然后,给出算法的收敛性分析.结果 表明算法的收敛速度为O(√T),其中T是迭代次数.最后,使用投资组合选择模型进行了数值仿真实验.实验结果表明,ODMD-B算法的收敛速度与已有的ODMD算法的收敛速度接近.对比ODMD算法,本文所提出算法的优点在于仅仅使用了计算花费较小的函数值信息,使其更适用于梯度信息难以获取的优化问题.
在线学习;分布式优化;镜面下降算法;Bandit反馈;Regret界
44
O224;O236(运筹学)
国家自然科学基金;国家自然科学基金
2022-01-20(万方平台首次上网日期,不代表论文的发表时间)
共9页
99-107