10.11772/j.issn.1001-9081.2018061406
基于并行强化学习的云机器人任务调度策略
为了解决机器人完成大规模状态空间强化学习任务时收敛慢的问题,提出一种基于优先级的并行强化学习任务调度策略.首先,证明Q学习在异步并行计算模式下的收敛性;然后,将复杂问题根据状态空间进行分割,调度中心根据所提策略将子问题和计算节点匹配,各计算节点完成子问题的强化学习任务并向调度中心反馈结果,实现在计算机集群中的并行强化学习;最后,以CloudSim为软件基础搭建实验环境,求解最优步长、折扣率和子问题规模等参数,并通过对实际问题求解证明在不同计算节点数的情况下所提策略的性能.在使用64个计算节点的情况下所提策略相比轮询调度和随机调度的效率分别提升了61%和86%.实验结果表明,该策略在并行计算情况下有效提高了收敛速度,并进一步验证了该策略得到百万级状态空间控制问题的最优策略需要约1.6×105 s.
云机器人、强化学习、Q学习、并行计算、任务调度、CloudSim
39
TP242.6(自动化技术及设备)
国家自然科学基金资助项目71371033;北京市教委科技计划面上项目KM201810037002;北京市智能物流系统协同创新中心资助项目0351701301
2019-03-29(万方平台首次上网日期,不代表论文的发表时间)
共8页
501-508