DOI：10.3969/j.issn.1672-7029.2006.06.018

考虑抽样时间间隔的特殊单臂Bandit报酬过程

引用

摘要：

应用动态规划向后归纳法和贝叶斯方法,研究了一类特殊单臂Bandit报酬过程的最优决策问题.在这个模型中,未知Bandit过程是抽样时间间隔服从负指数分布,抽样值服从Erlang(2)分布,允许在任意时刻跳转的Bandit报酬过程.讨论了这类Bandit报酬过程Gittins指数的单调性质,并在此基础上将包含这类过程的单臂Bandit报酬过程的最优决策问题简化为一个最优停止问题,构造了计算过程最优停止时间的算法.

关键词：贝叶斯方法、特殊单臂Bandit报酬过程、Gittins指数、Erlang(2)分布

所属期刊栏目：3

分类号：O211.64(概率论与数理统计)

资助基金：国家自然科学基金10671212

在线出版日期：2007-04-25（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：87-90

英文信息展示

期刊专题