10.3778/j.issn.1002-8331.1610-0348
基于强化学习的无人坦克对战仿真研究
对标准的强化学习进行改进,通过引入动机层,来引入先验知识,加快学习速度.策略迭代选择上,通过采用"同策略"迭代的Sarsa学习算法,代替传统的"异策略"Q学习算法.提出了基于多动机引导的Sarsa学习(MMSarsa)算法,分别和Q学习算法、Sarsa学习算法在坦克对战仿真问题上进行了三种算法的对比实验.实验结果表明,基于多动机引导的Sarsa学习算法收敛速度快且学习效率高.
多动机引导、Q学习、Sarsa学习、无人坦克、对战仿真
54
TP249(自动化技术及设备)
国家部委预研基金
2018-05-14(万方平台首次上网日期,不代表论文的发表时间)
共6页
166-171