非完全信息下基于PPO-CFR的扩展式博弈决策
非完全信息下的人机对抗通常可以通过双人零和博弈模型加以描述,反事实后悔最小化(coun1-terfactual regret minimization,CFR)是处理非完全信息双人零和博弈的一种流行算法.然而现有CFR及其变体算法在迭代过程中使用固定的后悔值计算和策略更新类型,在非完全信息扩展式博弈下表现各有优劣,泛化性能薄弱.针对这一问题,本文将强化学习近端策略优化(proximal policy optimization,PPO)算法与CFR算法相结合,提出一种PPO-CFR算法,通过训练出理性的智能体,从而实现CFR迭代过程后悔值计算和策略更新类型的自适应选择,以提高算法的泛化性能,并实现非完全信息扩展式博弈的策略优化.本文采用通用的扑克博弈实验验证所提算法,并制定逐步奖励函数训练智能体的动作策略,实验结果表明,与现有方法相比,PPO-CFR算法具有更好的泛化性能和更低的可利用度,迭代策略更为逼近纳什均衡策略.
非完全信息、扩展式博弈、反事实后悔最小化、近端策略优化、博弈决策
52
TP393;B844.1;TP18
国家重点研发计划;安徽省自然科学基金资助项目
2023-01-16(万方平台首次上网日期,不代表论文的发表时间)
共17页
2178-2194