基于一般和随机对策论框架下的多智能体学习
将Q-learning从单智能体框架上扩展到非合作的多智能体框架上,建立了在一般和随机对策框架下的多智能体理论框架和学习算法,提出了以Nash平衡点作为学习目标.给出了对策结构的约束条件,并证明了在此约束条件下算法的收敛性, 对多智能体系统的研究与应用有重要意义.
多智能体、Q-learning、随机对策、Nash平衡点
28
TP13(自动化基础理论)
国家自然科学基金60174038
2004-03-19(万方平台首次上网日期,不代表论文的发表时间)
共4页
423-426