稀疏场景下基于理性好奇心的多智能体强化学习

引用

摘要：

强化学习当前越来越多地应用于多智能体系统.在强化学习中,奖励信号起引导智能体学习的作用,然而多智能体系统任务复杂,可能只在任务结束时才能获得环境的反馈,导致奖励稀疏,大幅降底算法的收敛速度和效率.为解决稀疏奖励问题,提出一种基于理性好奇心的多智能体强化学习方法.受内在动机理论的启发,将好奇心思想扩展到多智能体中,并给出理性好奇心奖励机制,利用分解求和的网络结构将不同排列的联合状态编码到同一特征表示,减少联合状态的探索空间,将网络的预测误差作为内在奖励,引导智能体去研究新颖且有用的效用状态.在此基础上,引入双值函数网络对Q值进行评估,采用最小化算子计算目标值,缓解Q值的过估计偏差和方差,并采用均值优化策略提高样本利用.在追捕任务和合作导航任务的环境中进行实验评估,结果表明,在最困难的追捕任务中,该方法相较于基线算法,胜率提高15％左右,所需时间步降低20％左右,在合作导航任务中也具有较快的收敛速度.

关键词：稀疏奖励、多智能体系统、强化学习、内在动机、好奇心

所属期刊栏目：49

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金;安徽省自然科学基金;民航飞行技术与飞行安全重点实验室开放基金

在线出版日期：2023-05-22（万方平台首次上网日期，不代表论文的发表时间）

页数：共8页

页码：302-309

英文信息展示

期刊专题