AlphaZero原理与启示

引用

摘要：

近几年,计算机围棋成功引发了又一轮的人工智能热潮,从计算机围棋中发展出来的A1-phaZero框架成功地应用在其他完全信息条件下的二人有限零和博弈问题,进而展示出了深度学习和强化学习在智能决策领域的优异性能.本文首先介绍了AlphaZero框架中三个核心技术:深度学习、强化学习以及蒙特卡罗树搜索,然后详细说明了AlphaZero框架两个关键阶段——AlphaGo和AlphaGo Zero的基本原理,最后,对AlphaZero框架提出了自己的思考,并基于对AlphaZero原理的剖析讨论了其对军事决策智能化的启示.

关键词：深度学习、强化学习、蒙特卡罗树搜索、AlphaZero、军事决策智能化、人工智能

所属期刊栏目：27

分类号：TJ760;TP242.6(火箭、导弹)

在线出版日期：2020-08-28（万方平台首次上网日期，不代表论文的发表时间）

页数：共10页

页码：27-36

英文信息展示

期刊专题