基于LSTM-CTC尾部卷积的语音识别模型的构建方法及装置、语音识别方法
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方专利
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

专利专题

基于LSTM-CTC尾部卷积的语音识别模型的构建方法及装置、语音识别方法

引用
本发明公开了基于LSTM‑CTC尾部卷积的语音识别模型的构建方法及装置、语音识别方法,通过用一个全卷积层来替换BiLSTM层与softmax层之间的全连接层,以达到网络训练加速的效果。其中,LSTM用于训练语音识别模型,CTC作为损失函数,卷积层用于并行化原全连接层需同时进行的计算。基于卷积层的LSTM‑CTC网络利用卷积核并行计算的特点,使得原本的全连接层的计算不需要同时输入到内存中,从而加速网络的优化。与现有技术相比,本发明加快了语音模型的训练,减少了开发者的时间成本,在一定程度上降低了硬件的需求标准。

发明专利

CN202010253075.6

2020-04-02

CN111653275A

2020-09-11

G10L15/16(2006.01)

武汉大学

高戈;曾邦;杨玉红;陈怡;尹文兵;王霄;方依云

430072 湖北省武汉市武昌区珞珈山武汉大学

武汉科皓知识产权代理事务所(特殊普通合伙)

罗飞

湖北;42

1.基于LSTM-CTC尾部卷积的语音识别模型的构建方法,其特征在于,包括: S1:获取训练数据; S2:构建神经网络模型,其中,神经网络模型包括两个LSTM层、全卷积层以及Softmax层,其中,LSTM层用以提取出与输入特征序列长度相同的隐藏状态序列,全卷积层用以对输入的隐藏状态序列进行降秩、分类,Softmax层用以对全卷积层的输出进行映射,得到类别预测; S3:将获取的训练数据输入神经网络模型,并采用CTC损失函数训练神经网络模型,根据CTC损失函数判断模型是否最优,当最优时停止训练,得到训练好的模型,作为语音识别模型。 2.如权利要求1所述的方法,其特征在于,S1具体包括: 将从语音数据中提取的FBank特征作为训练数据。 3.如权利要求1所述的方法,其特征在于,S3具体包括: S3.1:计算前向传播变量α(t,u),α(t,u)为所有输出长度为t,经过映射之后为序列l的路径的概率之和,如下: 其中u表示序列长度,表示t时刻输出为空格字符的概率,l′u表示第t时间步输出的标签; S3.2:计算反向传播向量β(t,u),β(t,u)为从t+1时刻开始在前向变量α(t,u)上添加路径π,使得最后通过映射以后为序列l的概率之和,如下 其中u表示序列长度,表示t+1时刻输出为空格字符的概率,l′u表示第t时间步输出的标签; S3.3:根据前向传播变量和反向传播变量获得CTC损失函数L(x,z),如下: S3.4:采用随机梯度下降算法对模型进行训练,计算损失函数的梯度,其中,损失函数关于网络输出为: 其中B(z,k)为标签k出现在序列z的所有路径的集合,表示t时刻输出的字符,p(z|x)表示对于标签z其关于输入x的后验概率,x表示训练数据,z表示语音对应的文本信息,即标签; S3.5:根据损失函数的输出判断模型是否达到最优,当达到最优时停止训练,得到训练好的模型。 4.基于LSTM-CTC尾部卷积的语音识别模型的构建装置,其特征在于,包括: 训练数据获取模块,用于获取训练数据; 模型构建模块,用于构建神经网络模型,其中,神经网络模型包括两个LSTM层、全卷积层以及Softmax层,其中,LSTM层用以提取出与输入特征序列长度相同的隐藏状态序列,全卷积层用以对输入的隐藏状态序列进行降秩、分类,Softmax层用以对全卷积层的输出进行映射,得到类别预测; 模型训练模块,用于将获取的训练数据输入神经网络模型,并采用CTC损失函数训练神经网络模型,根据CTC损失函数判断模型是否最优,当最优时停止训练,得到训练好的模型,作为语音识别模型。 5.一种语音识别方法,其特征在于,包括: 将待识别的语音数据进行特征提取后输入如权利要求1至3任一项权利要求所述的语音识别模型中,得到语音识别结果。 6.如权利要求5所述的方法,其特征在于,语音识别模型的识别过程包括: S1:通过LSTM层提取出与输入特征序列长度相同的隐藏状态序列; S2:通过全卷积层用以对输入的隐藏状态序列进行降秩、分类; S3:通过Softmax层对全卷积层的输出进行映射,得到类别预测。 7.如权利要求6所述的方法,其特征在于,LSTM层包括时刻的输入词Xt,细胞状态Ct,临时细胞状态隐藏状态ht,遗忘门ft,输入门it,输出门ot,通过LSTM层提取出与输入特征序列长度相同的隐藏状态序列,包括: S1.1:计算遗忘门,选择要遗忘的信息:ft=σ(Wf·ht-1,xt+bf) 其中,输入为前一时刻隐藏状态ht-1和当前时刻的输入词xt,输出为ft,Wf、bf分别为遗忘门的权值矩阵和偏置; S1.2:计算输入门,选择要记忆的信息: it=σ(Wi·ht-1,xt+bi) 其中,输入为前一时刻隐藏状态ht-1和当前时刻的输入词xt,输出为记忆门的值it和临时细胞状态Wi、bi分别为输入门的权值矩阵和偏置,WC、bC分别为输出门的权值矩阵和偏置; S1.3:计算当前时刻细胞状态: 其中输入为记忆门的值it、遗忘门的值ft、临时细胞状态和上一刻细胞状态Ct-1,输出为当前时刻细胞状态Ct; S1.4:计算输出门和当前时刻隐藏状态 ot=σ(Woht-1,xt+bo) ht=ot*tanh(Ct) 其中,输入为前一时刻的隐藏状态ht-1、当前时刻的输入词xt和当前时刻细胞状态Ct,输出为输出门的值ot和隐藏状态ht; S1.5:最后计算得到与输入的特征序列长度相同的隐藏状态序列h0,h1,...,hn-1。 8.如权利要求6所述的方法,其特征在于,S3具体包括:将全卷积层输出的特征表征为不同类别之间的相对概率,得到最终的类别预测, 其中,i表示第i个类别,N表示类别总数,Vi表示第i个类别的概率值,Si表示经softmax处理之后第i个类别的概率值。
相关文献
评论
法律状态详情>>
2020-09-11公开
2020-09-11公开
相关作者
相关机构