语音识别方法、活体检测方法、模型训练方法及装置

引用

摘要：

本发明提供一种语音识别方法、活体检测方法、模型训练方法及装置，该方法包括：提取待识别的语音信号的声谱特征；将所述声谱特征输入堆叠的卷积神经网络处理后得到的特征信息输入循环神经网络处理，并将所述经循环神经网络处理后得到的特征信息输入序列到序列网络编解码后，输出所述语音信号对应的字符序列，得到识别结果；所述循环神经网络包括双向门控循环单元网络或长短期记忆网络。通过本发明提供的语音识别方法，可以实现端到端的语音识别，不仅语音识别的速度较快，还可以提高预设字符语音识别的准确性。

专利类型：发明专利

申请/专利号：CN202010493390.6

申请日期：2020-06-01

公开/公告号：CN111667835A

公开/公告日：2020-09-15

主分类号：G10L15/26(2006.01)

申请/专利权人:马上消费金融股份有限公司

发明/设计人:赵幸福;蒋宁;赵立军

主申请人地址:404100 重庆市渝北区黄山大道中段52号渝兴广场B2栋4至8楼

专利代理机构:北京银龙知识产权代理有限公司

代理人:黄灿%罗婷

国别省市代码:重庆;50

权利要求：

1.一种语音识别方法，其特征在于，包括：提取待识别的语音信号的声谱特征；将所述声谱特征输入堆叠的卷积神经网络处理后得到的特征信息输入循环神经网络处理，并将所述经循环神经网络处理后得到的特征信息输入序列到序列网络编解码后，输出所述语音信号对应的字符序列，得到识别结果；其中，所述循环神经网络包括双向门控循环单元网络或长短期记忆网络。 2.根据权利要求1所述的方法，其特征在于，所述将所述声谱特征输入堆叠的卷积神经网络处理后得到的特征信息输入循环神经网络处理，并将所述经循环神经网络处理后得到的特征信息输入序列到序列网络编解码后，输出所述语音信号对应的字符序列，得到识别结果具体包括：所述堆叠的卷积神经网络对输入的所述声谱特征中的频域特征进行增强处理；所述循环神经网络对输入的经所述堆叠的卷积神经网络处理后的声谱特征中的时间特征信息进行增强处理；所述序列到序列网络对输入的经所述循环神经网络处理后的声谱特征编解码，输出字符序列。 3.一种活体检测方法，其特征在于，包括：采集待检测对象读目标字符序列的语音信号和包含唇部的视频信号，其中，所述目标字符序列中的字符均为预设字符；利用权利要求1至2中任一项所述的语音识别方法对所述语音信号进行识别，得到所述语音信号对应的第一字符序列；对所述视频信号进行唇语识别，得到所述视频信号对应的第二字符序列；根据所述第一字符序列和所述第二字符序列判断所述对象是否为活体。 4.根据权利要求3所述的方法，其特征在于，所述根据所述第一字符序列和所述第二字符序列判断所述对象是否为活体，包括：计算所述第一字符序列和所述第二字符序列的相似度；在所述相似度小于阈值的情况下，确定所述对象不是活体；在所述相似度大于或等于阈值的情况下，根据所述第一字符序列与所述目标字符序列的比对结果判断所述对象是否为活体。 5.一种模型训练方法，其特征在于，包括：获取N个语音样本，其中，所述语音样本为预设字符对应的语音样本，N为正整数；分别提取所述N个语音样本中每个语音样本的声谱特征；根据所述N个语音样本的声谱特征对目标网络进行训练，得到语音识别模型；其中，所述目标网络包括堆叠的卷积神经网络、循环神经网络和序列到序列网络，所述堆叠的卷积神经网络输出的特征信息输入所述循环神经网络，所述循环神经网络输出的特征信息输入所述序列到序列网络，所述循环神经网络包括双向门控循环单元网络或长短期记忆网络。 6.根据权利要求5所述的方法，其特征在于，所述堆叠的卷积神经网络用于对输入的所述声谱特征中频域特征进行增强处理，所述循环神经网络用于对输入的经所述堆叠的卷积神经网络处理后的声谱特征中的时间特征信息进行增强处理；所述序列到序列网络用于对输入的经所述循环神经网络处理后的声谱特征编解码，输出字符序列。 7.一种语音识别装置，其特征在于，包括：提取模块，用于提取待识别的语音信号的声谱特征；识别模块，用于将所述声谱特征输入堆叠的卷积神经网络处理后得到的特征信息输入循环神经网络处理，并将所述经循环神经网络处理后得到的特征信息输入序列到序列网络编解码后，输出所述语音信号对应的字符序列，得到识别结果；其中，所述循环神经网络包括双向门控循环单元网络或长短期记忆网络。 8.一种活体检测装置，其特征在于，包括：采集模块，用于采集待检测对象读目标字符序列的语音信号和包含唇部的视频信号，其中，所述目标字符序列中的字符均为预设字符；第一识别模块，用于利用权利要求1至2中任一项所述的语音识别方法对所述语音信号进行识别，得到所述语音信号对应的第一字符序列；第二识别模块，用于对所述视频信号进行唇语识别，得到所述视频信号对应的第二字符序列；判断模块，用于根据所述第一字符序列和所述第二字符序列判断所述对象是否为活体。 9.一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至2中任一项所述的语音识别方法的步骤，或者实现如权利要求3至4中任一项所述的活体检测方法的步骤，或者实现如权利要求5至6中任一项所述的模型训练方法的步骤。 10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至2中任一项所述的语音识别方法的步骤，或者实现如权利要求3至4中任一项所述的活体检测方法的步骤，或者实现如权利要求5至6中任一项所述的模型训练方法的步骤。

专利专题