DOI：10.19562/j.chinasae.qcgc.2022.07.003

基于逆向强化学习的纵向自动驾驶决策方法

引用

摘要：

基于人类驾驶员数据获得自动驾驶决策策略是当前自动驾驶技术研究的热点.经典的强化学习决策方法大多通过设计安全性、舒适性、经济性相关公式人为构建奖励函数,决策策略与人类驾驶员相比仍然存在较大差距.本文中使用最大边际逆向强化学习算法,将驾驶员驾驶数据作为专家演示数据,建立相应的奖励函数,并实现仿驾驶员的纵向自动驾驶决策.仿真测试结果表明:相比于强化学习方法,逆向强化学习方法的奖励函数从驾驶员的数据中自动化的提取,降低了奖励函数的建立难度,得到的决策策略与驾驶员的行为具有更高的一致性.

关键词：自动驾驶、决策算法、强化学习、逆向强化学习

所属期刊栏目：44

分类号：U471.3;TP391.41;TP181

资助基金：国家重点研发计划;国家自然科学基金;国家自然科学基金

在线出版日期：2022-08-11（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：969-975

英文信息展示

期刊专题