10.3778/j.issn.1002-8331.2112-0084
基于SAC的自动驾驶车辆控制方法应用
为了改善SAC(soft actor critic)算法样本等概率采样以及网络随机初始化造成网络收敛速度慢、训练过程不稳定问题,提出一种结合优先级回放和专家数据的改进算法PE-SAC(priority playback soft actor critic with expert).该算法依据样本价值将样本池分类,使用专家数据预训练网络,缩小无人车无效探索空间、降低试错次数,有效提升算法学习效率.同时设计一种面向多障碍物的奖励函数增强算法适用性.在CARLA平台进行仿真实验,结果表明所提出方法可以更好地控制无人车在环境中安全行驶,同等训练次数下所得奖励值和收敛速度优于TD3(twin delayed deep deterministic policy gradient algorithm)和SAC算法.最后,结合雷达点云地图与PID(proportional integral derivative)控制方法缩小仿真环境与真实场景差异性,将训练所得模型移植到园区低速无人车中验证算法泛用性.
深度强化学习、无人驾驶控制、现实场景
59
TP391(计算技术、计算机技术)
国家重点研发计划;国家自然科学基金;国家自然科学基金;北京联合大学人才强校优选-拔尖计划;北京联合大学研究生科研创新资助项目;北京联合大学科研项目
2023-04-27(万方平台首次上网日期,不代表论文的发表时间)
共9页
306-314