10.11871/jfdc.issn.2096-742X.2022.03.005
基于蒙特卡洛树搜索的通用博弈系统的构建与优化研究
[背景]作为人工智能的主要研究领域,通用博弈策略(General Game Playing,简称GGP)旨在构建具有通用智能的博弈系统.这些系统能够基于给定的博弈规则在没有人为干涉的情况下成功地进行多个甚至是全新构造的博弈.[目的]与专门的博弈系统不同,通用博弈系统所使用的策略生成算法并不针对特定博弈,而是能够根据给定的博弈规则自动生成博弈策略的具有通用性的算法.GGP发展至今已成为检测人工智能水平,特别是通用智能发展的重要研究领域.如何构建高效的通用博弈系统是GGP研究的主要问题.[文献范围]通用博弈策略的生成算法是构建通用博弈系统的关键技术.目前所使用的主流算法是蒙特卡洛树搜索算法及其变种.这类算法在工作过程中并不依赖特定的博弈信息,因而被广泛地应用于GGP领域.然而,由博弈规则推导出来的关于博弈的专门信息,往往对建立针对这一博弈的有效决策算法具有重要的作用.[方法]为此,本文通过在蒙特卡洛树搜索算法上增加记忆结构来存储在线博弈过程中的实时信息,用记忆结构中博弈状态的相似状态来估计该状态的好坏,以提高状态评估的准确性.[结果]本文基于这一方法构建了通用博弈系统并对其性能进行了全面地评估.实验结果表明,与原始的蒙特卡洛方法相比,本文所构建的通用博弈系统在决策水平和效率上都有显著提升,特别在双人信息对称的零和回合制博弈中胜率保持在55%以上,且其性能随着博弈规模的增大而显著提升,在Connect 5、Breakthrough等大规模的游戏上有着绝对优势,即达到100%胜率.[结论]这表明本文所提出的方法通过利用博弈的专门信息能够有效地提升蒙特卡洛树搜索算法的性能.
通用博弈策略、蒙特卡洛树搜索、算法博弈论、多智能体系统
4
TN279;G641;S631.2
国家重点研发计划;国家自然科学基金
2022-06-24(万方平台首次上网日期,不代表论文的发表时间)
共12页
66-77