非完全信息下基于PPO-CFR的扩展式博弈决策

引用

摘要：

非完全信息下的人机对抗通常可以通过双人零和博弈模型加以描述,反事实后悔最小化(coun1-terfactual regret minimization,CFR)是处理非完全信息双人零和博弈的一种流行算法.然而现有CFR及其变体算法在迭代过程中使用固定的后悔值计算和策略更新类型,在非完全信息扩展式博弈下表现各有优劣,泛化性能薄弱.针对这一问题,本文将强化学习近端策略优化(proximal policy optimization,PPO)算法与CFR算法相结合,提出一种PPO-CFR算法,通过训练出理性的智能体,从而实现CFR迭代过程后悔值计算和策略更新类型的自适应选择,以提高算法的泛化性能,并实现非完全信息扩展式博弈的策略优化.本文采用通用的扑克博弈实验验证所提算法,并制定逐步奖励函数训练智能体的动作策略,实验结果表明,与现有方法相比,PPO-CFR算法具有更好的泛化性能和更低的可利用度,迭代策略更为逼近纳什均衡策略.

关键词：非完全信息、扩展式博弈、反事实后悔最小化、近端策略优化、博弈决策

所属期刊栏目：52

分类号：TP393;B844.1;TP18

资助基金：国家重点研发计划;安徽省自然科学基金资助项目

在线出版日期：2023-01-16（万方平台首次上网日期，不代表论文的发表时间）

页数：共17页

页码：2178-2194

英文信息展示

期刊专题