10.3969/j.issn.1672-7029.2006.06.018
考虑抽样时间间隔的特殊单臂Bandit报酬过程
应用动态规划向后归纳法和贝叶斯方法,研究了一类特殊单臂Bandit报酬过程的最优决策问题.在这个模型中,未知Bandit过程是抽样时间间隔服从负指数分布,抽样值服从Erlang(2)分布,允许在任意时刻跳转的Bandit报酬过程.讨论了这类Bandit报酬过程Gittins指数的单调性质,并在此基础上将包含这类过程的单臂Bandit报酬过程的最优决策问题简化为一个最优停止问题,构造了计算过程最优停止时间的算法.
贝叶斯方法、特殊单臂Bandit报酬过程、Gittins指数、Erlang(2)分布
3
O211.64(概率论与数理统计)
国家自然科学基金10671212
2007-04-25(万方平台首次上网日期,不代表论文的发表时间)
共4页
87-90