语音识别方法、装置、系统、电子设备和存储介质

引用

摘要：

本申请公开了语音识别方法、装置、系统、电子设备和存储介质，涉及语音识别、深度学习技术领域。具体实现方案为：获取待识别的语音信号；将待识别的语音信号输入至训练好的语音识别模型中，其中，语音识别模型采用深度学习算法对待识别的语音信号进行语音增强和语音识别处理；获取语音识别模型输出的识别结果，识别结果包括多个预测字的概率分布；以及根据识别结果确定待识别的语音信号对应的语言文字。本申请的识别方法，能够根据语音识别模型对语音信号进行语音增强和语音识别处理，相较于根据多个不同的模型分别对语音信号进行语音增强和语音识别处理，可实现一体化建模和离线语音识别，具有响应速度快、成本低、识别范围广的优点。

专利类型：发明专利

申请/专利号：CN202010824576.5

申请日期：2020-08-17

公开/公告号：CN112102816A

公开/公告日：2020-12-18

主分类号：G10L15/06(2013.01)

申请/专利权人:北京百度网讯科技有限公司

发明/设计人:耿雷

主申请人地址:100085 北京市海淀区上地十街10号百度大厦2层

专利代理机构:北京清亦华知识产权代理事务所(普通合伙)

代理人:王萌

国别省市代码:北京;11

权利要求：

1.一种语音识别方法，包括：获取待识别的语音信号；将所述待识别的语音信号输入至训练好的语音识别模型中，其中，所述语音识别模型采用深度学习算法对所述待识别的语音信号进行语音增强和语音识别处理；获取所述语音识别模型输出的识别结果，所述识别结果包括多个预测字的概率分布；以及根据所述识别结果确定所述待识别的语音信号对应的语言文字。 2.根据权利要求1所述的语音识别方法，其中，所述语音识别模型采用深度学习算法对所述待识别的语音信号进行语音增强和语音识别处理，包括：所述语音识别模型采用卷积神经网络算法对所述待识别的语音信号进行语音增强和语音识别处理。 3.根据权利要求2所述的语音识别方法，其中，所述语音识别模型采用卷积神经网络算法对所述待识别的语音信号进行语音增强和语音识别处理，包括：获取回声参考信号；将所述回声参考信号输入至所述语音识别模型中；所述语音识别模型对所述待识别的语音信号和所述回声参考信号进行自适应滤波处理，得到回声消除后的语音信号；所述语音识别模型对所述回声消除后的语音信号进行多尺度、多层次的特征提取，得到时频特征；所述语音识别模型对所述时频特征进行深度学习，得到所述回声消除后的语音信号和预测字之间的对齐关系；以及所述语音识别模型根据所述对齐关系得到所述识别结果。 4.根据权利要求1所述的语音识别方法，还包括：将样本语音信号输入至待训练语音识别模型中；获取所述待训练语音识别模型输出的样本识别结果；以及根据所述样本识别结果和所述样本语音信号的实际语言文字对所述待训练语音识别模型进行训练，得到所述训练好的语音识别模型。 5.一种语音识别装置，包括：第一获取模块，用于获取待识别的语音信号；识别模块，用于将所述待识别的语音信号输入至训练好的语音识别模型中，其中，所述语音识别模型采用深度学习算法对所述待识别的语音信号进行语音增强和语音识别处理；第二获取模块，用于获取所述语音识别模型输出的识别结果，所述识别结果包括多个预测字的概率分布；以及确定模块，用于根据所述识别结果确定所述待识别的语音信号对应的语言文字。 6.根据权利要求5所述的装置，其中，所述识别模块，进一步用于：所述语音识别模型采用卷积神经网络算法对所述待识别的语音信号进行语音增强和语音识别处理。 7.根据权利要求6所述的装置，其中，所述识别模块，进一步用于：获取回声参考信号；将所述回声参考信号输入至所述语音识别模型中；所述语音识别模型对所述待识别的语音信号和所述回声参考信号进行自适应滤波处理，得到回声消除后的语音信号；所述语音识别模型对所述回声消除后的语音信号进行多尺度、多层次的特征提取，得到时频特征；所述语音识别模型对所述时频特征进行深度学习，得到所述回声消除后的语音信号和预测字之间的对齐关系；以及所述语音识别模型根据所述对齐关系得到所述识别结果。 8.根据权利要求1所述的装置，还包括：模型训练模块，所述模型训练模块，用于：将样本语音信号输入至待训练语音识别模型中；获取所述待训练语音识别模型输出的样本识别结果；以及根据所述样本识别结果和所述样本语音信号的实际语言文字对所述待训练语音识别模型进行训练，得到所述训练好的语音识别模型。 9.一种语音识别系统，包括：语音处理器，所述语音处理器包括如权利要求5-8中任一项所述的语音识别装置；语音采集器，用于采集待识别的语音信号，并将采集到的所述待识别的语音信号输入至所述语音识别装置；控制接口，所述语音识别装置根据所述待识别的语音信号对应的语言文字，生成对应的控制信号，并将所述控制信号通过所述控制接口输入至对应的电器，以对所述电器进行控制。 10.一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-4中任一项所述的语音识别方法。 11.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-4中任一项所述的语音识别方法。

专利专题