多智能体深度强化学习的若干关键科学问题
强化学习作为一种用于解决无模型序列决策问题的方法已经有数十年的历史,但强化学习方法在处理高维变量问题时常常会面临巨大挑战.近年来,深度学习迅猛发展,使得强化学习方法为复杂高维的多智能体系统提供优化的决策策略、在充满挑战的环境中高效执行目标任务成为可能.本文综述了强化学习和深度强化学习方法的原理,提出学习系统的闭环控制框架,分析了多智能体深度强化学习中存在的若干重要问题和解决方法,包括多智能体强化学习的算法结构、环境非静态和部分可观性等问题,对所调查方法的优缺点和相关应用进行分析和讨论.最后提供多智能体深度强化学习未来的研究方向,为开发更强大、更易应用的多智能体强化学习控制系统提供一些思路.
强化学习、深度强化学习、多智能体、学习系统、智能控制、决策优化
46
科技部人工智能专项重大项目;国家自然科学基金创新研究群体;国家自然科学基金
2020-08-18(万方平台首次上网日期,不代表论文的发表时间)
共12页
1301-1312