10.19306/j.cnki.2095-8110.2023.02.007
基于STDP奖励调节的类脑面向目标导航
动物具有优秀的空间自主定位导航能力,能够实现在无先验环境信息下的导航定位和导航决策过程.针对智能体在连续空间中面向目标导航问题,研究了一种基于生物学放电时间依赖可塑性学习规则的智能体面向目标导航算法.首先分析了动物面向目标导航决策过程中的生理学机理,在此基础上,构建了基于脉冲神经网络的位置细胞和动作细胞模型.动作细胞间权值采用横向竞争模型更新,通过环境奖励信号的更新,采用放电时间依赖可塑性学习规则对位置细胞前馈动作细胞模型的突触权重进行权值调节,利用动作细胞群的脉冲放电现象表征智能体运动方向和速度.最后,对所提算法进行了仿真实验验证.仿真结果表明,所提出的类脑面向 目标导航算法能够在单障碍环境中实现30 ms左右的规划速度,相比传统强化学习Q学习方法平均路径规划长度缩短了 15.9%.
类脑目标导航、放电时间依赖可塑性、智能体、脉冲神经网络、位置细胞、动作细胞
10
V249.32;TP18(航空仪表、航空设备、飞行控制与导航)
国家自然科学基金;国防基础科研计划;校创新基金项目
2023-05-30(万方平台首次上网日期,不代表论文的发表时间)
共10页
47-56