一种针对德州扑克AI的对手建模与策略集成框架
以德州扑克游戏为代表的大规模不完美信息博弈是现实世界中常见的一种博弈类型.现有以求解纳什均衡策略为目标的主流德州扑克求解算法存在依赖博弈树模型、算力消耗大、策略过于保守等问题,导致智能体在面对不同对手时无法最大化自身收益.为解决上述问题,提出一种轻量高效且能快速适应对手策略变化进而剥削对手的不完美信息博弈求解框架.本框架分为智能体离线训练和在线博弈两个阶段.第1阶段基于演化学习思想训练智能体,得到能够剥削不同博弈风格对手的策略神经网络.在第2博弈阶段中,智能体在线建模并适应未知风格对手,利用种群策略集成的方法最大化剥削对手.在两人无限注德州扑克环境中的实验结果表明,本框架在面对动态对手策略时,相比已有方法能够大幅提升博弈性能.
不完美信息博弈、德州扑克、演化学习、在线对手建模、种群策略集成
48
TP391.9;TP18;TP242.6
国家自然科学基金;国家自然科学基金;国家重点研发计划;中国科学院战略性先导科技专项;CCF-腾讯犀牛鸟基金
2022-05-11(万方平台首次上网日期,不代表论文的发表时间)
共14页
1004-1017