语音处理方法、装置、设备和系统

引用

摘要：

本发明提供一种语音处理方法、装置、设备和系统，方法包括获取同步采集的音频信号和视频信号；从所有视频信号中提取位于所述音频信号的方向上的目标视频信号；若所述目标视频信号包括发声人员的人脸图像，确定所述发声人员的人脸图像中所述发声人员的唇部状态；若所述唇部状态表示处于说话状态，对所述音频信号进行增强处理，得到增强音频信号；对所述增强音频信号进行语音识别，实现了语音识别前对音频信号的有效性的确认，提高了音频信号的指令，并得到增强音频信号后，对增强音频信号进行语音识别。采用本发明的技术方案，能够提高语音识别的识别结果准确率、降低无效的语音识别的概率。

专利类型：发明专利

申请/专利号：CN202010822240.5

申请日期：2020-08-16

公开/公告号：CN111933174A

公开/公告日：2020-11-13

主分类号：G10L21/055(2013.01)

申请/专利权人:云知声智能科技股份有限公司

发明/设计人:路博;李旭滨

主申请人地址:100096 北京市海淀区西三旗建材城内1幢一层101号

国别省市代码:北京;11

权利要求：

1.一种语音处理方法，其特征在于，包括：获取同步采集的音频信号和视频信号；从所有视频信号中提取位于所述音频信号的方向上的目标视频信号；若所述目标视频信号包括发声人员的人脸图像，确定所述发声人员的人脸图像中所述发声人员的唇部状态；若所述唇部状态表示处于说话状态，对所述音频信号进行增强处理，得到增强音频信号；对所述增强音频信号进行语音识别。 2.根据权利要求1所述的语音处理方法，其特征在于，所述获取同步采集的音频信号和视频信号，包括：利用通用串行总线USB获取同步采集的音频信号和视频信号。 3.根据权利要求1所述的语音处理方法，其特征在于，还包括：若所述唇部状态表示未处于说话状态，滤除所述音频信号。 4.根据权利要求1所述的语音处理方法，其特征在于，确定所述发声人员的唇部状态，包括：根据所述目标视频信号，确定所述发声人员的唇部动作频率；根据预设的唇部动作频率与唇部状态的关联关系，确定与所述发声人员的唇部特征相对应的唇部状态。 5.根据权利要求1所述的语音处理方法，其特征在于，对所述音频信号进行增强处理，得到增强音频信号之前，还包括：基于预设的行为数据库，确定所述发声人员的行为；确定所述发声人员的行为属于当前业务场景的可语音识别的行为。 6.根据权利要求5所述的语音处理方法，其特征在于，所述确定所述发声人员的行为属于当前业务场景的可语音识别的行为，包括：将所述发声人员的行为与当前业务场景预设的禁止语音识别的行为进行比对，得到比对结果；若所述比对结果表示不一致，确定所述发声人员的行为属于当前业务场景的可语音识别的行为。 7.一种语音处理装置，其特征在于，包括：获取模块，用于获取同步采集的音频信号和视频信号；提取模块，用于从所述视频信号中提取位于所述音频信号的方向上的目标视频信号；确定模块，用于若所述目标视频信号包括发声人员的人脸图像，确定所述发声人员的人脸图像中所述发声人员的唇部状态；处理模块，用于若所述唇部状态表示处于说话状态，对所述音频信号进行增强处理，得到增强音频信号；识别模块，用于对所述增强音频信号进行语音识别。 8.一种语音处理设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任意一项所述的语音处理方法。 9.一种语音处理系统，其特征在于，包括语音采集设备、视频采集设备和如权利要求8所述的语音处理设备；所述语音采集设备和所述视频采集设备分别与所述语音处理设备相连；所述语音采集设备用于采集音频信号；所述视频采集设备用于采集视频信号；所述语音处理设备用于实现如权利要求1至6任意一项所述的语音处理方法。 10.根据权利要求9所述的语音处理系统，其特征在于，所述语音采集设备设置有麦克阵列。

专利专题