基于增强脉冲的声音识别方法

引用

摘要：

本发明公开一种基于增强脉冲的声音识别方法。在噪声环境下对声音进行准确地识别,激发了研究者对人脑的运行机理进行探索，从而赋予机器以与人脑相似的认知能力。生物系统中的神经元使用脉冲来传输和处理信息。我们首先将脉冲迸发的生物学现象抽象成为了增强脉冲，其通过定义脉冲系数来表示除脉冲发放时间以外的其它信息。之后，提出了两种新的学习算法来处理增强脉冲。最后，本发明结合稀疏关键点编码方法，提出了两种基于增强脉冲的声音识别方法。我们提出的基于增强脉冲的声音识别模型大幅度地提升了声音识别的准确率和鲁棒性，彰显了增强脉冲及其识别模型的优势。

专利类型：发明专利

申请/专利号：CN202010161164.8

申请日期：2020-03-10

公开/公告号：CN111681648A

公开/公告日：2020-09-18

主分类号：G10L15/16(2006.01)

申请/专利权人:天津大学

发明/设计人:于强;宋世明

主申请人地址:300072 天津市南开区卫津路92号

专利代理机构:天津市北洋有限责任专利代理事务所

代理人:程小艳

国别省市代码:天津;12

权利要求：

1.基于增强脉冲的声音识别方法，其特征在于，首先提出增强脉冲的新概念；之后，提出了两种新的学习算法来处理增强脉冲；最后，结合稀疏关键点编码方法，声音被编码成为稀疏的时空脉冲图。 2.根据权利要求1所述的基于增强脉冲的声音识别方法，其特征在于，所述增强神经元模型如下：增强脉冲使用了脉冲迸发数目来表示其他信息，我们将该数量抽象为脉冲系数，神经元模型需要将脉冲系数纳入其动力学等式中，每个输入脉冲对神经元膜电位V(t)的影响不仅仅由突触权重控制，影响的幅度还由脉冲系数控制；其中，是到达第i个突触的第j个脉冲的时间,表示相应的脉冲系数，代表当前神经元第j个输出脉冲的时间； N和wi表示突触前神经元的数目和相对应的突触权重，θ表示神经元的阈值；K(t)是一个核函数，定义为： V0是一个常数因子，用来对K(t)进行归一化；τm表示膜电位的时间常数，τs表示突触电流的时间常数。 3.根据权利要求1所述的基于增强脉冲的声音识别方法，其特征在于， 1)AugTempotron学习算法增强学习算法，即增强的Tmp(AugTmp)，来学习和处理增强脉冲；在学习和训练中，AugTmp训练神经元对目标类别(A)发射一个脉冲，同时对其他类别(B)保持沉默；当错误发生时，它将修改突触权重；其中，η为学习速率，tmax表示神经元膜电位达到其最大值的时刻点；或 2)AugTDP学习算法选择TDP多脉冲方法来开发新的增强多脉冲学习算法(AugTDP)，AugTDP学习算法是基于脉冲阈值表层Spike Threshold Surface(STS)函数被开发的，STS定义了一系列使输出脉冲的数量从k变为k-1的临界阈值，参照TDP中的步骤，给定一个临界阈值θ*，其相对于权重wi的导数可以表示为：其中tsj＜t*,j∈1,2....,m；t*代表的膜电位等于θ*时的临界时间；m是t*之前的输出脉冲总数；使用tm表示ts1,ts2....,tsm,t*；上式中各个部分的求解公式如下所示：由此，我们可以得到梯度AugTDP对神经元权重的更新规则如下：其中no表示神经元实际的脉冲输出个数，nd表示目标个数。 4.根据权利要求1所述的基于增强脉冲的声音识别方法，其特征在于，所述关键点编码算法是将声音转换成脉冲模式图：关键点编码算法首先对声音信号进行分帧、加窗、短时傅里叶变换、归一化处理，从而得到归一化的能量语谱图S(t,f)；之后通过log(S(t,i)+∈)-log(∈)(∈表示精度控制值)计算对数能量语谱图，最后将对数能量语谱图进行归一化；进而，对预处理得到的语谱图S(t,i)的局部时域和频域分别提取关键点，关键点通过以下式表示：其中，dt和df分别表示时域的局域区域大小和频域的局部区域大小。 5.根据权利要求4所述的基于增强脉冲的声音识别方法，其特征在于，关键点编码方法使用两种掩码机制： 1)基于相对值的掩码机制：如果关键点的能量值小于对应局部区域的平均能量值，则此关键点被删除； 2)基于绝对值的掩码机制：如果关键点的能量值小于固定的能量值，则该关键点被视为不重要的信息被删除。

专利专题