DOI：10.3969/j.issn.2095-2163.2022.11.022

基于AlphaZero的不围棋博弈系统研究

引用

摘要：

2017年,谷歌旗下的DeepMind团队公布了AlphaZero,这是人工智能研究的一个重要里程碑,该算法在不需要专家数据的前提下采用自博弈的方式进行训练,适用于多种棋种.本文以不围棋为载体,将AlphaZero算法应用到不围棋博弈系统,较为详细地分析了策略网络、价值网络引导的蒙特卡洛树搜索算法的实现.通过自我对弈学习博弈知识,得到了自我强化,优化了评估函数.

关键词：机器博弈、不围棋、自我对弈、神经网络、蒙特卡洛、AlphaZero、策略网络、价值网络、损失函数

所属期刊栏目：12

分类号：TP391(计算技术、计算机技术)

在线出版日期：2022-12-08（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：138-141,147

英文信息展示

期刊专题