一种语音识别的方法、装置、设备及介质

引用

摘要：

本发明实施例提供了一种语音识别的方法、装置、设备及介质。所述方法包括：通过将获取的音频数据转化为对应的语谱图；判断所述语谱图的帧数是否为预设帧数；若所述语谱图的帧数不为预设帧数，则对所述语谱图进行补零，以使补零后得到的待识别语谱图的帧数为所述预设帧数；将所述待识别语谱图输入到多任务卷积神经网络声学模型中。实现了直接向声学模型输入语谱图，进而识别出音频数据的文本。相较现有技术计算MFCC特征造成的频域上的信息损失，本发明减少了输入特征的损失，增加了音频数据的辨识度，并且更加有利于声学模型提取特征信息。

专利类型：发明专利

申请/专利号：CN202011046734.5

申请日期：2020-09-29

公开/公告号：CN111933113A

公开/公告日：2020-11-13

主分类号：G10L15/02(2006.01)

申请/专利权人:北京捷通华声科技股份有限公司

发明/设计人:李健;韩雨;武卫东;陈明

主申请人地址:100193 北京市海淀区东北旺西路8号中关村软件园2号楼A座一层2101

专利代理机构:北京润泽恒知识产权代理有限公司

代理人:莎日娜

国别省市代码:北京;11

权利要求：

1.一种语音识别的方法，其特征在于，所述方法包括：将获取的音频数据转化为对应的语谱图；判断所述语谱图的帧数是否为预设帧数；若所述语谱图的帧数不为预设帧数，则对所述语谱图进行补零，以使补零后得到的待识别语谱图的帧数为所述预设帧数；将所述待识别语谱图输入到声学模型；获得所述声学模型输出的识别文本。 2.根据权利要求1所述的方法，其特征在于，所述方法还包括：获取多个语谱图样本；将所述多个语谱图样本输入至预设模型中，以对所述预设模型进行训练，所述预设模型包括主体网络部分和分支网络部分；其中，所述主体网络部分用于输出与所述多个语谱图样本对应的文本，所述分支网络部分用于输出与所述多个语谱图样本对应的重建图像；将训练结束时的预设模型作为声学模型。 3.根据权利要求2所述的方法，其特征在于，所述对所述预设模型进行训练的步骤，包括：根据所述主体网络部分、文本标签和所述多个语谱图样本，获取所述主体网络部分的CTC损失函数；将所述多个语谱图样本分别输入到所述分支网络部分，获取与各语谱图样本对应的重建图像，并根据所述多个语谱图样本和所述与各语谱图样本对应的重建图像，获取所述分支网络部分的损失函数；根据所述CTC损失函数、所述分支网络部分的损失函数和预设系数，确定所述预设模型的损失函数；将所述多个语谱图样本输入到所述预设模型中进行训练，直到所述预设模型的损失函数收敛。 4.根据权利要求1所述的方法，其特征在于，所述获得所述声学模型输出的识别文本的步骤，包括：获得所述声学模型输出的多个待识别文本和与所述多个识别文本分别对应的第一得分；所述方法还包括：将所述多个识别文本分别输入到语言模型；获得所述语言模型分别对所述多个识别文本进行识别的第二得分；根据所述第一得分和所述第二得分，确定所述多个识别文本分别对应的最终得分；比较各识别文本对应的最终得分，确定最终得分最高的对应识别文为最终的识别文本。 5.根据权利要求2所述的方法，其特征在于，所述获取多个语谱图样本的步骤，包括：获取多条音频数据数据，并将所述多条音频数据转化为对应的多个语谱图；将所述多个语谱图中帧数少于所述预设帧数的语谱图，进行补零操作，使得补零后得到的语谱图的帧数等于所述预设帧数；将所述多个语谱图中帧数大于所述预设帧数的语谱图删除，并对剩下的语谱图进行数据增强，获得所述多个语谱图样本。 6.一种语音识别的装置，其特征在于，所述装置包括：音频转化模块，用于将获取的音频数据转化为对应的语谱图；帧数判断模块，用于判断所述语谱图的帧数是否为预设帧数；补零模块，用于若所述语谱图的帧数不为预设帧数，则对所述语谱图进行补零，以使补零后得到的待识别语谱图的帧数为所述预设帧数；声学模型模块，用于建立所述待识别语谱图和对应文本的映射关系；解码器模块，用于识别获得所述声学模型输出的文本。 7.根据权利要求6所述的装置，其特征在于，所述装置还包括：样本获取模块，用于获取多个语谱图样本；模型训练模块，用于将所述多个语谱图样本输入至预设模型中，以对所述预设模型进行训练，所述预设模型包括主体网络部分和分支网络部分；其中，所述主体网络部分用于输出与所述多个语谱图样本对应的文本，所述分支网络部分用于输出与所述多个语谱图样本对应的重建图像；将训练结束时的预设模型作为声学模型。 8.根据权利要求7所述的装置，其特征在于，所述模型训练模块，包括： CTC损失函数获取子模块，用于根据所述主体网络部分、文本标签和所述多个语谱图样本，获取所述主体网络部分的CTC损失函数；分支网络部分的损失函数获取子模块，用于将所述多个语谱图样本分别输入到所述分支网络部分，获取与各语谱图样本对应的重建图像，并根据所述多个语谱图样本和所述与各语谱图样本对应的重建图像，获取所述分支网络部分的损失函数；预设模型的损失函数确定子模块，用于根据所述CTC损失函数、所述分支网络部分的损失函数和预设系数，确定所述预设模型的损失函数；模型训练子模块，用于将所述多个语谱图样本输入到所述预设模型中进行训练，直到所述预设模型的损失函数收敛。 9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5中任一项所述的一种语音识别的方法的步骤。 10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的一种语音识别的方法的步骤。

专利专题