10.3969/j.issn.2095-2163.2022.11.022
基于AlphaZero的不围棋博弈系统研究
2017年,谷歌旗下的DeepMind团队公布了AlphaZero,这是人工智能研究的一个重要里程碑,该算法在不需要专家数据的前提下采用自博弈的方式进行训练,适用于多种棋种.本文以不围棋为载体,将AlphaZero算法应用到不围棋博弈系统,较为详细地分析了策略网络、价值网络引导的蒙特卡洛树搜索算法的实现.通过自我对弈学习博弈知识,得到了自我强化,优化了评估函数.
机器博弈、不围棋、自我对弈、神经网络、蒙特卡洛、AlphaZero、策略网络、价值网络、损失函数
12
TP391(计算技术、计算机技术)
2022-12-08(万方平台首次上网日期,不代表论文的发表时间)
共5页
138-141,147