10.19678/j.issn.1000-3428.0057309
基于Expectimax搜索与Double DQN的非完备信息博弈算法
麻将作为典型的非完备信息博弈游戏主要通过传统Expectimax搜索算法实现,其剪枝策略与估值函数基于人工先验知识设计,存在假设不合理等问题.提出一种结合Expectimax搜索与Double DQN强化学习算法的非完备信息博弈算法.在Expectimax搜索树扩展过程中,采用Double DQN输出的估值设计估值函数并在限定搜索层数内获得分支估值,同时设计剪枝策略对打牌动作进行排序与部分扩展实现搜索树剪枝.在Double DQN模型训练过程中,将麻将信息编码为特征数据输入神经网络获得估值,使用Expectimax搜索算法得到最优动作以改进探索策略.实验结果表明,与Expectimax搜索算法、Double DQN算法等监督学习算法相比,该算法在麻将游戏上胜率与得分更高,具有更优异的博弈性能.
Double DQN算法、Expectimax搜索、非完备信息博弈、麻将、强化学习
47
TP183(自动化基础理论)
国家自然科学基金;江西省自然科学基金
2021-03-24(万方平台首次上网日期,不代表论文的发表时间)
共8页
304-310,320