一种联合语音增强的语音活动检测方法
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方专利
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

专利专题

一种联合语音增强的语音活动检测方法

引用
本发明公开了一种联合语音增强的语音活动检测方法,首先在Conv‑TasNet全卷积网络基础上构建联合网络模型,联合网络模型整体分为三个部分:编码器、时间卷积网络和解码器;针对语音增强SE任务和语音活动检测VAD任务采用两个单独的解码器,而共用同一组编码器与TCN网络;TCN网络输出掩码与编码器输出点乘后作为两个解码器的输入;采用mSI‑SDR及交叉熵的联合损失函数在训练阶段对结果进行评估;最终采用Adam优化器对网络进行训练,训练完成的网络能够较好地实现语音活动检测。本发明通过将语音增强和语音端点检测联合训练,提高了语音端点检测的鲁棒性,使其在复杂的噪声环境,特别是人声干扰剧烈的环境中依然能够保持较高的性能。

发明专利

CN202110292283.1

2021-03-18

CN113113049A

2021-07-13

G10L25/78(2013.01)

西北工业大学

张晓雷;谭旭;陈益江

710072 陕西省西安市友谊西路127号

西北工业大学专利中心

金凤

陕西;61

1.一种联合语音增强的语音活动检测方法,其特征在于,包括以下步骤: 步骤1:给定时间长度为T的音频数据x,其中x∈R1×T,将音频数据x划分为N帧信号,音频数据x为纯净语音信号s与噪声n的混合信号,表示为: x=s+n (1) 步骤2:联合网络模型设计; 步骤2-1:在Conv-TasNet全卷积网络基础上增加一个解码器,网络体系结构包含三个部分:编码器、分离网络TCN以及两个解码器,两个解码器分别为SE解码器和VAD解码器;语音增强SE任务和语音活动检测VAD任务共享同一个编码器和分离网络;语音增强SE任务使用SE解码器生成增强的语音,语音活动检测VAD任务使用VAD解码器生成软预测评分; 步骤2-2:编码器内核大小为L,步幅为L/2;将音频数据x输入编码器,编码器将音频数据x转换为特征图W∈RN×K,其中K是特征向量的数量; 再将特征图W输入分离网络TCN,分离网络TCN输出掩码M∈RN×K;再将特征图W和掩码M进行逐元素乘法,得到去噪特征图D∈RN×K,表示如下: D=M⊙W 其中⊙表示逐元素乘法; 步骤2-3:SE解码器和VAD解码器均以去噪特征图D作为输入; SE解码器生成纯净语音信号s的估计值 VAD解码器生成VAD分数,在VAD解码器后面增加Sigmoid函数,将VAD解码器的输出限制在0和1之间,输出为表示语音活动检测VAD软预测评分; 步骤3:构建联合损失函数; 定义联合损失: 其中和分别是语音活动检测和语音增强的损失函数,λ∈(0,1)是平衡两个损失函数的超参数; 为交叉熵损失函数; 在语音增强损失SI-SDR的基础上引入语音活动检测VAD标签及软预测评分,构造新的语音增强损失mSI-SDR: 其中y=”y1,...,yT”为语音活动检测VAD的预测标签; 步骤4:采用Adam优化器对联合网络模型进行训练,训练完成后得到最终的联合网络模型。
相关文献
评论
法律状态详情>>
2021-07-13公开
2021-07-13公开
相关作者
相关机构