10.3969/j.issn.1006-2475.2020.11.005
基于卷积神经网络的"斗地主"策略
深度神经网络已经在国外的各种博弈中取得了惊人的成就,近几年,卷积神经网络因为其独特的单元结构获得了极大的关注,被频频运用到博弈AI智能体中,例如AlphaGo、冷扑大师等.而"斗地主"是典型的基于非完备信息的合作对抗博弈.本文设计一种7层卷积神经网络DDZ-CNN,用基于蒙特卡洛树"斗地主"自我博弈的近30万条数据来训练该网络以学习"斗地主"策略,训练过程中采用基于权重的方式对训练数据进行下采样以克服其分布不均的问题,而且网络能较快收敛.最后将训练好的模型与智能MCTS模型和真人进行了实战对抗,取得了不错的胜率,验证了本文算法的有效性与可行性.
非完备信息博弈、卷积神经网络、"斗地主"策略、非均匀分布
TP301.6(计算技术、计算机技术)
国家自然科学基金资助项目61976065
2020-12-04(万方平台首次上网日期,不代表论文的发表时间)
共5页
28-32