一种语音识别方法、装置、设备及存储介质

引用

摘要：

本申请提供了一种语音识别方法、装置、设备及存储介质，其中，语音识别方法包括：获取目标语音数据和其对应的唇部图像数据，其中，唇部图像数据包括目标语音数据所涉及的每个说话人的唇部图像序列；以目标语音数据对应的唇部图像数据为辅助信息，利用预先建立的混叠语音识别模型，对目标语音数据按说话人进行分离，并对分离后的语音数据进行识别，得到目标语音数据的识别结果；其中，混叠语音识别模型以标注有真实分离结果和真实识别结果的混叠语音数据为训练样本，同时结合训练样本对应的唇部图像数据训练得到。本申请提供的语音识别方案对于嘈杂环境下的混叠语音具有较好的识别效果。

专利类型：发明专利

申请/专利号：CN202010430127.2

申请日期：2020-05-19

公开/公告号：CN111583916A

公开/公告日：2020-08-25

主分类号：G10L15/20(2006.01)

申请/专利权人:科大讯飞股份有限公司

发明/设计人:殷兵;严哲;郭涛;胡金水;刘聪

主申请人地址:230088 安徽省合肥市高新区望江西路666号

专利代理机构:北京集佳知识产权代理有限公司

代理人:杨华

国别省市代码:安徽;34

权利要求：

1.一种语音识别方法，其特征在于，包括：获取目标语音数据和其对应的唇部图像数据，其中，所述唇部图像数据包括所述目标语音数据所涉及的每个说话人的唇部图像序列；以所述目标语音数据对应的唇部图像数据为辅助信息，利用预先建立的混叠语音识别模型，对所述目标语音数据按说话人进行分离，并对分离后的语音数据进行识别，得到所述目标语音数据的识别结果；其中，所述混叠语音识别模型以标注有真实分离结果和真实识别结果的混叠语音数据为训练样本，同时结合所述训练样本对应的唇部图像数据训练得到。 2.根据权利要求1所述的语音识别方法，其特征在于，所述混叠语音识别模型以最小化分离误差和识别误差为目标训练得到。 3.根据权利要求1所述的语音识别方法，其特征在于，所述以所述目标语音数据对应的唇部图像数据为辅助信息，利用预先建立的混叠语音识别模型，对所述目标语音数据按说话人进行分离，并对分离后的语音数据进行识别，包括：按预设长度对所述目标语音数据切分，由切分得到的目标语音段组成目标语音段集合；对于所述目标语音段集合中的每个目标语音段：利用所述混叠语音识别模型，以及该目标语音段对应的唇部图像数据，对该目标语音段进行分离；利用所述混叠语音识别模型，以及该目标语音段对应的唇部图像数据，对分离后的各语音段进行识别，以得到该目标语音段的识别结果；将所述目标语音段集合中各目标语音段的识别结果融合，得到所述目标语音数据的识别结果。 4.根据权利要求3所述的语音识别方法，其特征在于，所述利用所述混叠语音识别模型，以及该目标语音段对应的唇部图像数据，对该目标语音段进行分离，包括：将该目标语音段输入所述混叠语音识别模型的频谱转换模块，获得该目标语音段的语音频谱；将该目标语音段的语音频谱输入所述混叠语音识别模型的第一语音特征提取模块，获得该目标语音段对应的语音频谱特征；将该目标语音段对应的唇部图像数据输入所述混叠语音识别模型的图像特征提取模块，获得该目标语音段对应的唇部图像特征；将该目标语音段对应的语音频谱特征和唇部图像特征输入所述混叠语音识别模型的第一特征融合模块，获得第一融合特征；将所述第一融合特征输入所述混叠语音识别模型的语音分离模块，获得分离后的各语音段的语音频谱。 5.根据权利要求4所述的语音识别方法，其特征在于，所述利用所述混叠语音识别模型，以及该目标语音段对应的唇部图像数据，对分离后的各语音段进行识别，包括：将所述分离后的各语音段的语音频谱输入所述混叠语音识别模型的第二语音特征提取模块，获得分离后的各语音段分别对应的语音频谱特征；将所述分离后的各语音段分别对应的语音频谱特征和该目标语音段对应的唇部图像特征输入所述混叠语音识别模型的第二特征融合模块，获得第二融合特征；将所述第二融合特征输入所述混叠语音识别模型的语音识别模块，获得分离后的各语音段分别对应的识别结果。 6.根据权利要求1所述的语音识别方法，其特征在于，获得所述训练样本和所述训练样本对应的唇部图像数据的过程包括：获取至少两个单人视频段，并将所述至少两个单人视频段合成为一个视频段，得到合成后视频段，其中，所述合成后视频段中的每帧图像均包括各单人视频段中的说话人，所述合成后视频段的语音数据为将所述至少两个单人视频段的语音数据进行混叠得到的语音数据；从所述合成后语音段中分离出语音数据和图像序列，分离出的语音数据作为所述训练样本，其中，所述至少两个单人视频段中，每个单人视频段的语音数据的语音频谱作为所述训练样本的真实分离结果，每个单人视频段的语音数据的文本内容作为所述训练样本的真实识别结果；从所述图像序列中获取所述训练样本所涉及的每个说话人的唇部图像序列，作为所述训练样本对应的唇部图像数据。 7.根据权利要求1所述的语音识别方法，其特征在于，所述混叠语音识别模型的训练过程包括：按预设长度对所述训练样本切分，由切分得到的训练样本段组成训练样本段集合；对于所述训练样本段集合中的每个训练样本段：利用混叠语音识别模型，以及该训练样本段对应的唇部图像数据，对该训练样本段进行分离，获得分离后的各样本段的语音频谱，作为该训练样本段的预测分离结果；利用混叠语音识别模型、该训练样本段对应的唇部图像数据以及该训练样本段的预测分离结果，确定分离后的各样本段分别对应的识别结果，作为该训练样本段的预测识别结果；根据该训练样本段的预测分离结果和真实分离结果，确定该训练样本段对应的第一预测损失，并根据该训练样本段的预测识别结果和真实识别结果，确定该训练样本段对应的第二预测损失；根据该训练样本段对应的第一预测损失和第二预测损失，更新混叠语音识别模型的参数。 8.根据权利要求7所述的语音识别方法，其特征在于，所述混叠语音识别模型包括：语音分离部分和语音识别部分；所述根据该训练样本段对应的第一预测损失和第二预测损失，更新混叠语音识别模型的参数，包括：根据该训练样本段对应的第一预测损失，更新混叠语音识别模型的语音分离部分的参数；根据该训练样本段对应的第二预测损失，更新混叠语音识别模型的语音分离部分和语音识别部分的参数。 9.根据权利要求8所述的语音识别方法，其特征在于，所述根据该训练样本段对应的第一预测损失，更新混叠语音识别模型的语音分离部分的参数，包括：按预设的第一权重对该训练样本段对应的第一预测损失加权，以加权后的损失为依据，更新混叠语音识别模型的语音分离部分的参数；所述根据该训练样本段对应的第二预测损失，更新混叠语音识别模型的语音分离部分和语音识别部分的参数，包括：按预设的第二权重对该训练样本段对应的第二预测损失加权，以加权后的损失为依据，更新混叠语音识别模型的语音分离部分和语音识别部分的参数；其中，所述第一权重和所述第二权重均为大于0的值，且所述第一权重与所述第二权重的和为一固定值。 10.一种语音识别装置，其特征在于，包括：数据获取模块和语音分离及识别模块；所述数据获取模块，用于获取目标语音数据和其对应的唇部图像数据，其中，所述唇部图像数据包括所述目标语音数据所涉及的每个说话人的唇部图像序列；所述语音分离及识别模块，用于以所述目标语音数据对应的唇部图像数据为辅助信息，利用预先建立的混叠语音识别模型，对所述目标语音数据按说话人进行分离，并对分离后的语音数据进行识别，得到所述目标语音数据的识别结果；其中，所述混叠语音识别模型以标注有真实分离结果和真实识别结果的混叠语音数据为训练样本，同时结合所述训练样本对应的唇部图像数据训练得到。 11.一种语音识别设备，其特征在于，包括：存储器和处理器；所述存储器，用于存储程序；所述处理器，用于执行所述程序，实现如权利要求1～9中任一项所述的语音识别方法的各个步骤。 12.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1～9中任一项所述的语音识别方法的各个步骤。

专利专题