基于深度强化学习的智能兵棋推演决策方法
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.19678/j.issn.1000-3428.0067067

基于深度强化学习的智能兵棋推演决策方法

引用
兵棋推演是培养现代军事指挥员的重要方法,将人工智能技术引入到兵棋推演中可简化组织流程,提升推演效益.基于机器学习的智能兵棋常因态势信息过于复杂以及推演本身信息不完整,导致自主决策模型的样本决策效率降低.提出一种基于深度强化学习的智能兵棋推演决策方法.针对智能兵棋推演作战决策的效率问题,在策略网络中引入基准线,并加快策略网络训练,随后进行推导证明,提出加入基准线后策略网络参数的更新方法,分析将兵棋推演环境中的状态-价值函数引入到模型的过程.构建低优势策略-价值网络模型及其训练框架,在传统策略-价值网络下用于兵棋推演,结合战场态势感知方法对模型进行构建.实验结果表明,在近似符合军事作战规则的兵棋作战实验环境中,将传统策略-价值网络和低优势策略-价值网络进行对比训练,在400次的自博弈训练中,低优势策略-价值网络模型的损失值从5.3下降到2.3,且收敛速度优于传统策略-价值网络,低优势策略-价值网络模型的KL散度在训练过程中趋近于0.

兵棋、态势感知、深度强化学习、卷积神经网络、演员-评论家方法

49

TP391(计算技术、计算机技术)

2023-09-25(万方平台首次上网日期,不代表论文的发表时间)

共10页

303-312

相关文献
评论
暂无封面信息
查看本期封面目录

计算机工程

1000-3428

31-1289/TP

49

2023,49(9)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn