Q学习算法在库存控制中的应用
Q学习算法是Watkins提出的求解信息不完全马尔可夫决策问题的一种强化学习方法.这里提出了一种新的探索策略,并将该策略和Q学习算法有效结合来求解一类典型的有连续状态和决策空间的库存控制问题.仿真表明,该方法所求解的控制策略和用值迭代法在模型已知的情况下所求得的最优策略非常逼近,从而证实了Q学习算法在一些系统模型未知的工程控制问题中的应用潜力.
Q学习、马尔可夫决策过程、库存控制、连续状态和决策空间、探索策略
25
TP3(计算技术、计算机技术)
中国科学院资助项目
2004-03-19(万方平台首次上网日期,不代表论文的发表时间)
共6页
236-241