VAD识别方法、装置、存储介质及计算机设备
本申请提供了一种VAD识别方法、装置、存储介质及计算机设备。该方法包括:获取音频信号;将音频信号输入至识别模型得到音频信号的VAD识别结果;基于VAD识别结果确定的非语音音频帧和语音音频帧分别提取非语音特征、语音特征;根据非语音特征和语音特征更新识别模型;将音频信号输入至更新后的识别模型得到新的VAD识别结果;若根据新的VAD识别结果与历史识别结果判断未满足收敛条件,则基于当前的VAD识别结果确定的非语音音频帧和语音音频帧分别提取非语音特征、语音特征,并基于当前提取的非语音特征和语音特征更新当前使用的识别模型,重新对音频信号进行识别,直至重新识别的VAD识别结果满足收敛条件时输出满足收敛条件的VAD识别结果。
发明专利
CN202211043001.5
2022-08-29
CN117672271A
2024-03-08
G10L25/87(2013.01)
广东粤港澳大湾区国家纳米科技创新研究院
冯霁;周耀杰
510700 广东省广州市黄埔区开源大道136号D栋201室
北京集佳知识产权代理有限公司
肖茹芸
广东;44
1.一种VAD识别方法,其特征在于,所述方法包括: 获取音频信号; 将所述音频信号输入至预设的识别模型得到所述音频信号的VAD识别结果;所述VAD识别结果用于标识所述音频信号中的非语音音频帧和语音音频帧; 基于所述VAD识别结果确定的非语音音频帧和语音音频帧分别提取非语音特征、语音特征; 根据所述非语音特征和所述语音特征更新所述识别模型; 将所述音频信号输入至更新后的识别模型得到新的VAD识别结果; 若根据新的VAD识别结果与历史识别结果判断未满足收敛条件,则基于当前的VAD识别结果确定的非语音音频帧和语音音频帧分别提取非语音特征、语音特征,并基于当前提取的非语音特征和语音特征更新当前使用的识别模型,重新对所述音频信号进行识别,直至重新识别的VAD识别结果满足收敛条件时输出满足收敛条件的VAD识别结果;其中,所述历史识别结果至少包括前一次识别得到的VAD识别结果。 2.根据权利要求1所述的VAD识别方法,其特征在于,所述收敛条件为当前的VAD识别结果与历史识别结果的相似度达到预设阈值。 3.根据权利要求2所述的VAD识别方法,其特征在于,识别模型包括非语音识别模型和语音识别模型,所述VAD识别结果包括非语音音频帧识别结果和语音音频帧识别结果;执行将所述音频信号输入至识别模型得到所述音频信号的VAD识别结果,包括: 将所述音频信号输入至所述非语音识别模型,输出非语音音频帧识别结果; 将所述音频信号输入至所述语音识别模型,输出语音音频帧识别结果。 4.根据权利要求3所述的VAD识别方法,其特征在于,判断VAD识别结果是否满足收敛条件,包括: 计算所述非语音音频帧识别结果与历史识别结果中的非语音音频帧识别结果的第一相似度是否达到第一预设阈值; 计算所述语音音频帧识别结果与历史识别结果中的语音音频帧识别结果的第二相似度是否达到第二预设阈值; 在所述第一相似度达到所述第一预设阈值,且所述第二相似度达到所述第二预设阈值时,判定VAD识别结果满足收敛条件。 5.根据权利要求3所述的VAD识别方法,其特征在于,所述根据所述非语音特征和所述语音特征更新所述识别模型,包括: 基于所述非语音特征对所述非语音识别模型的特征参数进行更新; 基于所述语音特征更新所述语音识别模型的特征参数进行更新。 6.根据权利要求3所述的VAD识别方法,其特征在于,所述基于所述VAD识别结果确定的非语音音频帧和语音音频帧分别提取非语音特征、语音特征,包括: 对所述非语音音频帧识别结果进行特征提取,得到当前的VAD识别结果对应的非语音特征; 对所述语音音频帧识别结果进行特征提取,得到当前的VAD识别结果对应的语音特征。 7.根据权利要求1所述的VAD识别方法,其特征在于,所述音频信号的VAD识别结果输出时使用的识别模型用于作为下一段音频信号的预设的识别模型,在输出所述音频信号满足收敛条件的VAD识别结果后,所述方法还包括: 获取下一段音频信号进行VAD识别输出满足收敛条件的VAD识别结果,直至完成所有音频信号的VAD识别。 8.一种VAD识别装置,其特征在于,包括: 获取模块,用于获取音频信号; 第一识别模块,用于将所述音频信号输入至识别模型得到所述音频信号的VAD识别结果;所述VAD识别结果用于标识所述音频信号中的非语音音频帧和语音音频帧; 特征提取模块,用于基于所述VAD识别结果确定的非语音音频帧和语音音频帧分别提取非语音特征、语音特征; 模型更新模块,用于根据所述非语音特征和所述语音特征更新所述识别模型; 第二识别模块,用于将所述音频信号输入至更新后的识别模型得到新的VAD识别结果; 结果输出模块,用于在根据新的VAD识别结果与历史识别结果判断未满足收敛条件时,基于当前的VAD识别结果确定的非语音音频帧和语音音频帧分别提取非语音特征、语音特征,并基于当前提取的非语音特征和语音特征更新当前使用的识别模型,重新对所述音频信号进行识别,直至重新识别的VAD识别结果满足收敛条件时输出满足收敛条件的VAD识别结果;其中,所述历史识别结果至少包括前一次识别得到的VAD识别结果。 9.一种存储介质,其特征在于:所述存储介质中存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至7中任一项所述VAD识别方法的步骤。 10.一种计算机设备,其特征在于,包括:一个或多个处理器,以及存储器; 所述存储器中存储有计算机可读指令,所述一个或多个处理器执行时所述计算机可读指令时,执行如权利要求1至7中任一项所述VAD识别方法的步骤。