基于多层忆阻脉冲神经网络的强化学习及应用
人工神经网络(Artificial neural networks,ANNs)与强化学习算法的结合显著增强了智能体的学习能力和效率.然而,这些算法需要消耗大量的计算资源,且难以硬件实现.而脉冲神经网络(Spiking neural networks,SNNs)使用脉冲信号来传递信息,具有能量效率高、仿生特性强等特点,且有利于进一步实现强化学习的硬件加速,增强嵌入式智能体的自主学习能力.不过,目前脉冲神经网络的学习和训练过程较为复杂,网络设计和实现方面存在较大挑战.本文通过引入人工突触的理想实现元件—忆阻器,提出了一种硬件友好的基于多层忆阻脉冲神经网络的强化学习算法.特别地,设计了用于数据-脉冲转换的脉冲神经元;通过改进脉冲时间依赖可塑性(Spiking-timing dependent plasticity,STDP)规则,使脉冲神经网络与强化学习算法有机结合,并设计了对应的忆阻神经突触;构建了可动态调整的网络结构,以提高网络的学习效率;最后,以Open AIGym中的CartPole-v0(倒立摆)和MountainCar-v0(小车爬坡)为例,通过实验仿真和对比分析,验证了方案的有效性和相对于传统强化学习方法的优势.
强化学习、脉冲神经网络、脉冲时间依赖可塑性规则、忆阻器
45
国家自然科学基金61601376,61672436;中央高校基本科研业务费XDJK2019C034;重庆市基础与前沿技术研究专项cstc2016jcyjA0547;中国博士后科学基金2018T110937;重庆市博士后科学基金Xm2017039;国家级大学生创新创业训练计划项目201810635017
2019-09-25(万方平台首次上网日期,不代表论文的发表时间)
共12页
1536-1547