一种辅助语音识别的处理方法、装置、电子设备及存储介质

引用

摘要：

一种辅助语音识别的处理方法，该方法包括：获取同步采集到的语音信号以及图像帧序列；从所述图像帧序列包括的图像帧中识别出用户口型，得到用户口型序列；所述用户口型序列包括至少一个用户口型；将所述用户口型序列与标准口型序列进行比对；所述标准口型序列由正确朗读目标内容的标准口型组成；在比对出所述用户口型序列与所述标准口型序列匹配时，确定所述语音信号为有效语音信号。实施本申请实施例，能够通过比对出用户口型序列与标准口型序列，判断采集到的语音信号是否为用户朗读目标内容时发出的声音，可以减少将非朗读目标内容时输入的语音信号误识别为语音识别对象的情况发生，提高语音识别的准确率。

专利类型：发明专利

申请/专利号：CN202010498623.1

申请日期：2020-06-04

公开/公告号：CN111739534A

公开/公告日：2020-10-02

主分类号：G10L15/25(2013.01)

申请/专利权人:广东小天才科技有限公司

发明/设计人:武志华

主申请人地址:528850 广东省东莞市长安镇霄边社区东门中路168号

专利代理机构:广州德科知识产权代理有限公司

代理人:万振雄%杨中强

国别省市代码:广东;44

权利要求：

1.一种辅助语音识别的处理方法，其特征在于，所述方法包括：获取同步采集到的语音信号以及图像帧序列；从所述图像帧序列包括的图像帧中识别出用户口型，得到用户口型序列；所述用户口型序列包括至少一个用户口型；将所述用户口型序列与标准口型序列进行比对；所述标准口型序列由正确朗读目标内容的标准口型组成；在比对出所述用户口型序列与所述标准口型序列匹配时，确定所述语音信号为有效语音信号。 2.根据权利要求1所述的方法，其特征在于，所述从所述图像帧序列包括的图像帧中识别出用户口型，得到用户口型序列，包括：对所述图像帧序列包括的每个图像帧进行人脸识别，确定包括唇部特征的唇部图像帧，得到由所述唇部图像帧组成的第一图像帧子序列；根据唇部特征识别出每个所述唇部图像帧对应的用户口型，得到用户口型序列；以及，所述在比对出所述用户口型序列与所述标准口型序列匹配时，确定所述语音信号为有效语音信号，包括：在比对出所述用户口型序列与所述标准口型序列匹配时，根据所述第一图像帧子序列包括的各个图像帧的采集时刻，从所述语音信号中确定出与所述第一图像帧子序列匹配的语音信号段；确定所述语音信号段为有效语音信号。 3.根据权利要求2所述的方法，其特征在于，所述对所述图像帧序列包括的每个图像帧进行人脸识别，包括：对所述图像帧序列包括的每个图像帧的中央区域进行人脸识别；所述中央区域的中心为图像帧的中心，所述中央区域的面积为预设面积。 4.根据权利要求2所述的方法，其特征在于，所述在比对出所述用户口型序列与所述标准口型序列匹配时，根据所述第一图像帧子序列包括的图像帧的采集时刻，从所述语音信号中确定出与所述第一图像帧子序列匹配的语音信号段，包括：在比对出所述用户口型序列中存在与所述标准口型序列的序列吻合度高于预设序列吻合度阈值的目标子序列时，在所述第一图像帧子序列中确定出与所述目标子序列对应的第二图像帧子序列；所述目标子序列包括的用户口型是从所述第二图像帧子序列包括的图像帧中识别出的；以所述第二图像帧子序列中第一个图像帧的采集时刻为语音信号段的起始时刻，以所述第二图像帧子序列中最后一个图像帧的采集时刻为语音信号段的结束时刻，从所述语音信号中确定出与所述第一图像帧子序列匹配的语音信号段。 5.根据权利要求4所述的方法，其特征在于，所述方法还包括：在对比出所述用户口型序列中不存在所述目标子序列时，输出提示信息；其中，所述提示信息用于指示用户重新朗读所述目标内容。 6.根据权利要求1-5任一所述的方法，其特征在于，在所述将所述用户口型序列与标准口型序列进行比对之前，所述方法还包括：获取目标内容的读音对应的音素组合；根据音素与口型之间的预设对应关系，从口型库中匹配出与所述音素组合包括的各个音素对应的标准口型；根据所述音素组合包括的各个音素对应的标准口型生成标准口型序列。 7.根据权利要求6所述的方法，其特征在于，所述根据所述音素组合包括的各个音素对应的标准口型生成标准口型序列，包括：从所述音素组合包括的各个音素对应的标准口型中剔除出弱读或者不发音的音素对应的标准口型，得到保留的标准口型；根据所述保留的标准口型生成标准口型序列。 8.一种辅助语音识别的处理装置，其特征在于，包括：获取单元，用于获取同步采集到的语音信号以及图像帧序列；识别单元，用于从所述图像帧序列包括的图像帧中识别出用户口型，得到用户口型序列；所述用户口型序列包括至少一个用户口型；比对单元，将所述用户口型序列与标准口型序列进行比对；所述标准口型序列由正确朗读目标内容的标准口型组成；确定单元，用于在比对出所述用户口型序列与所述标准口型序列匹配时，确定所述语音信号为有效语音信号。 9.一种电子设备，其特征在于，包括：存储有可执行程序代码的存储器；与所述存储器耦合的处理器；所述处理器调用所述存储器中存储的所述可执行程序代码，执行权利要求1-7任一项所述的辅助语音识别的处理方法。 10.一种计算机可读存储介质，其存储计算机程序，其特征在于，所述计算机程序使得计算机执行权利要求1-7任一项所述的辅助语音识别的处理方法。

专利专题