10.3969/j.issn.1000-1220.2021.03.032
一种面向自动驾驶推理任务的工作流调度策略
目前自动驾驶推理任务调度中要解决的关键问题是如何在不同的时间窗内,让实时推理任务满足可容忍时间约束的前提下,在相应的处理设备上被调度执行完成.在不同时间窗内,依据边缘节点的数量变化以及推理任务的不同,设计了一种边缘环境下基于强化学习算法的工作流调度策略.首先,利用推理任务工作流调度算法计算任务的完成时间;其次,采用基于模拟退火的Q学习算法(Q-learning based on simulated annealing,SA-QL)来优化推理任务的完成时间;最后,从可行性、收敛性、有效性和探索性四个角度来体现基于模拟退火的强化学习算法(Reinforement learning based on simulated annealing,SA-RL)和粒子群优化算法(Particle Swarm Optimization,PSO)的性能差异.实验结果表明,模拟退火的强化学习算法和粒子群优化算法都具有可行性和有效性,单步时序差分算法(TD(0))具有更强的探索性,多步时序差分算法(TD(λ))具有更强的收敛性.
自动驾驶、工作流调度、强化学习、边缘计算
42
TP338(计算技术、计算机技术)
国家重点研发计划项目;国家自然科学基金项目;福建省自然科学基金项目;福建省教育厅中青年教师教育科研项目;福建省科技厅引导性项目
2021-03-29(万方平台首次上网日期,不代表论文的发表时间)
共8页
632-639