10.3321/j.issn:1003-3998.2000.01.005
非平稳MDP--平均样本轨道最优
作者考虑的是任意状态空间,任意行动空间非平稳MDP的平均样本轨道目标.在弱遍历条件下,用鞅的极限理论,证明了最优马氏策略的存在性,推广了A.Arapostathis,V.Borkar,E.F.Gaucherand,M.Ghosh,S.Marcus[1](1993)的主要结果.
马氏决策规划(MDP)、平均样本轨道目标、非平稳、最优马氏策略
20
O1(数学)
国家重点基础研究发展计划973计划;广东省博士启动基金
2004-01-08(万方平台首次上网日期,不代表论文的发表时间)
共5页
31-35