10.3969/j.issn.1000-3428.2007.18.006
平均报酬模型强化学习理论、算法及应用
折扣报酬模型强化学习是目前强化学习研究的主流,但折扣因子的选取使得近期期望报酬的影响大于远期期望报酬的影响,而有时候较大远期期望报酬的策略有可能是最优的,因此比较合理的方法是采用平均报酬模型强化学习.该文介绍了平均报酬模型强化学习的两个主要算法以及主要应用.
平均报酬强化学习、R学习、H学习
33
TP24(自动化技术及设备)
2007-11-05(万方平台首次上网日期,不代表论文的发表时间)
共3页
18-19,39