基于Bandit反馈的在线分布式镜面下降算法

引用

摘要：

针对在线分布式优化中一类损失函数梯度信息获取困难的问题,提出一种基于Bandit反馈的在线分布式镜面下降(ODMD-B)算法.首先,推广在线分布式镜面梯度下降(ODMD)算法到免梯度的情形,提出了一种新的仅利用函数值信息来对梯度进行估计的方法即Bandit反馈,其关键在于利用损失函数值信息逼近梯度信息,能有效克服梯度信息难以获取或计算复杂的困难.然后,给出算法的收敛性分析.结果表明算法的收敛速度为O(√T),其中T是迭代次数.最后,使用投资组合选择模型进行了数值仿真实验.实验结果表明,ODMD-B算法的收敛速度与已有的ODMD算法的收敛速度接近.对比ODMD算法,本文所提出算法的优点在于仅仅使用了计算花费较小的函数值信息,使其更适用于梯度信息难以获取的优化问题.

关键词：在线学习;分布式优化;镜面下降算法;Bandit反馈;Regret界

所属期刊栏目：44

分类号：O224;O236(运筹学)

资助基金：国家自然科学基金;国家自然科学基金

在线出版日期：2022-01-20（万方平台首次上网日期，不代表论文的发表时间）

页数：共9页

页码：99-107

英文信息展示

期刊专题