10.16208/j.issn1000-7024.2020.03.042
基于参数逼近的多智能体强化学习算法
为改善多智能体纳什Q学习算法适应性差、条件苛刻、运算复杂,且没有通用方法更新策略价值等问题,提出基于参数的算法改进思路.引入联合动作向量简化算法,引入参数,通过参数近似控制状态-行为值函数,转化训练目标,给出参数逼近的值函数更新方程,理论分析算法的收敛性及可行性.仿真结果表明,基于参数逼近的多智能体强化学习算法,能够使智能体100%达到纳什均衡,提高算法性能,简化算法复杂性,相比传统纳什Q学习算法能够较快收敛.
智能体系统、强化学习、马尔科夫博弈、Q学习、纳什均衡
41
TP181(自动化基础理论)
国家自然科学基金项目;陕西省自然科学基金项目
2020-05-07(万方平台首次上网日期,不代表论文的发表时间)
共5页
862-866