VAD识别方法、装置、存储介质及计算机设备

引用

摘要：

本申请提供了一种VAD识别方法、装置、存储介质及计算机设备。该方法包括：获取音频信号和与音频信号同步的振动信号；利用预设的语音识别模型解析音频信号，得到初步识别结果；基于振动信号修正初步识别结果，得到第一语音识别结果及用于修正初步识别结果的修正参数；融合音频信号、第一语音识别结果及修正参数，得到融合信号；将融合信号输入至预设的VAD识别模型，输出第二语音识别结果作为VAD识别结果。本申请能够提高VAD识别的准确性。

专利类型：发明专利

申请/专利号：CN202211041358.X

申请日期：2022-08-29

公开/公告号：CN117672270A

公开/公告日：2024-03-08

主分类号：G10L25/87(2013.01)

申请/专利权人:广东粤港澳大湾区国家纳米科技创新研究院

发明/设计人:冯霁;周耀杰

主申请人地址:510700 广东省广州市黄埔区开源大道136号D栋201室

专利代理机构:北京集佳知识产权代理有限公司

代理人:肖茹芸

国别省市代码:广东;44

权利要求：

1.一种VAD识别方法，其特征在于，所述方法包括：获取音频信号和与所述音频信号同步的振动信号；利用预设的语音识别模型解析所述音频信号，得到初步识别结果；基于所述振动信号修正所述初步识别结果，得到第一语音识别结果及用于修正所述初步识别结果的修正参数；融合所述音频信号、所述第一语音识别结果及所述修正参数，得到融合信号；将所述融合信号输入至预设的VAD识别模型，输出第二语音识别结果作为VAD识别结果。 2.根据权利要求1所述的VAD识别方法，其特征在于，所述基于所述振动信号修正所述初步识别结果，得到第一语音识别结果及用于修正所述初步识别结果的修正参数，包括：将所述振动信号输入至预设的振动信号模型，得到所述修正参数；其中，所述修正参数用于反映所述振动信号中每一帧信号与所述音频信号中的对应的音频帧为语音信号的概率；基于所述修正参数对所述初步识别结果中每一帧音频帧的识别结果进行修正，得到所述第一语音识别结果。 3.根据权利要求2所述的VAD识别方法，其特征在于，所述将所述振动信号输入至预设的振动信号模型，得到所述修正参数，包括：对所振动信号进行降噪处理；将处理后的振动信号输入至所述振动信号模型得到所述修正参数。 4.根据权利要求2或3所述的VAD识别方法，其特征在于，所述基于所述修正参数对所述初步识别结果中每一帧音频帧的识别结果进行修正，得到所述第一语音识别结果，包括：根据所述修正参数对所述初步识别结果中的每一帧音频帧的识别结果进行加权处理，得到所述第一语音识别结果。 5.根据权利要求2或3所述的VAD识别方法，其特征在于，所述基于所述修正参数对所述初步识别结果中每一帧音频帧的识别结果进行修正，得到所述第一语音识别结果，包括：根据所述修正参数对所述初步识别结果进行mask处理，得到所述第一语音识别结果。 6.根据权利要求1至3任一项所述的VAD识别方法，其特征在于，所述融合所述音频信号、所述第一语音识别结果及所述修正参数，得到融合信号，包括：将所述音频信号、所述第一语音识别结果及所述修正参数输入至预设的融合模型进行特征融合，得到所述融合信号。 7.根据权利要求6所述的VAD识别方法，其特征在于，所述融合模型为残差网络模型或卷积网络模型。 8.一种VAD识别装置，其特征在于，包括：信号获取模块，用于获取音频信号和与所述音频信号同步的振动信号；第一识别模块，用于利用预设的语音识别模型解析所述音频信号，得到初步识别结果；修正模块，用于基于所述振动信号修正所述初步识别结果，得到第一语音识别结果及用于修正所述初步识别结果的修正参数；融合模块，用于融合所述音频信号、所述第一语音识别结果及所述修正参数，得到融合信号；第二识别模块，用于将所述融合信号输入至预设的VAD识别模型，输出第二语音识别结果作为VAD识别结果。 9.一种存储介质，其特征在于：所述存储介质中存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1至7中任一项所述VAD识别方法的步骤。 10.一种计算机设备，其特征在于，包括：一个或多个处理器，以及存储器；所述存储器中存储有计算机可读指令，所述一个或多个处理器执行时所述计算机可读指令时，执行如权利要求1至7中任一项所述VAD识别方法的步骤。

专利专题