基于双延迟深度确定性策略梯度的船舶自主避碰方法
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.3963/j.jssn.1674-4861.2022.03.007

基于双延迟深度确定性策略梯度的船舶自主避碰方法

引用
为满足智能船舶自主航行的发展需求,解决基于强化学习的船舶避碰决策方法存在的学习效率低、泛化能力弱以及复杂会遇场景下鲁棒性差等问题,针对船舶避碰决策信息的高维性和动作的连续性等特点,考虑决策的合理性和实时性,研究了基于双延迟深度确定性策略梯度(TD3)的船舶自主避碰方法.根据船舶间相对运动信息与碰撞危险信息,从全局角度构建具有连续多时刻目标船信息的状态空间;依据船舶操纵性设计连续决策动作空间;综合考虑目标导向、航向保持、碰撞危险、《1972年国际海上避碰规则》(COLREGs)和良好船艺等因素,设计船舶运动的奖励函数;基于TD3算法,根据状态空间结构,结合长短期记忆(LSTM)网络和一维卷积网络,利用Actor-Critic结构设计船舶自主避碰网络模型,利用双价值网络学习、目标策略平滑以及策略网络延迟更新等方式稳定网络训练,利用跳帧以及批量大小和迭代更新次数动态增大等方式加速网络训练;为解决模型泛化能力弱的问题,提出基于TD3的船舶随机会遇场景训练流程,实现自主避碰模型应用的多场景迁移.运用训练得到的船舶自主避碰模型进行仿真验证,并与改进人工势场(APF)算法进行比较,结果表明:所提方法学习效率高,收敛快速平稳;训练得到的自主避碰模型在2船和多船会遇场景下均能使船舶在安全距离上驶过,并且在复杂会遇场景中比改进APF算法避碰成功率高,避让2~4艘目标船时成功率高达99.233%,5~7艘目标船时成功率97.600%,8~10艘目标船时成功率94.166%;所提方法能有效应对来船的不协调行动,避碰实时性高,决策安全合理,航向变化快速平稳、震荡少、避碰路径光滑,比改进APF方法性能更强.

交通信息工程、船舶避碰、智能决策、深度强化学习、双延迟深度确定性策略梯度

40

U675.96

国家自然科学基金52171351

2022-07-25(万方平台首次上网日期,不代表论文的发表时间)

共15页

60-74

相关文献
评论
暂无封面信息
查看本期封面目录

交通信息与安全

1674-4861

42-1781/U

40

2022,40(3)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn