基于深度强化学习的深圳市急救车调度算法

引用

摘要：

在院前急救领域中,急救反应时间是指患者拨打急救电话后,急救车到达现场的时间.传统急救车调度算法未全面考虑急救环境的动态性和复杂性因素,导致模型优化的急救反应时间与实际情况存在偏差.将急救车调度问题建模成马尔科夫决策过程,构建基于深度强化学习的急救车调度算法.以多层感知机作为评分网络结构,通过将急救站的动态信息映射为各个急救站的得分,确定急救车被调往各急救站的概率.同时,结合急救车调度的动态决策特点,利用强化学习中演员-评论家框架下的近端策略优化算法改进评分网络参数.在深圳市急救中心真实急救数据集上的实验结果表明,相比Fixed、DSM、MEXCLP等算法,该算法在每个急救事件中的急救反应时间平均缩短约80 s,并且在10 min内急救车的平均到达比例为36.5％,能够实时地将急救车调度到合适的急救站.

关键词：强化学习、神经网络、急救车调度、动态调度、马尔科夫决策过程

所属期刊栏目：48

分类号：TP391(计算技术、计算机技术)

资助基金：深圳市医疗卫生三名工程项目SZSM201911005

在线出版日期：2022-09-14（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：298-304

英文信息展示

期刊专题