用深度多任务递归神经网络来声学回声消除的系统和方法

引用

摘要：

一种用于执行回声消除的系统，包括：处理器，该处理器被配置为：接收远端信号；记录麦克风信号，该麦克风信号包括：近端信号、和对应于远端信号的回声信号；从远端信号中提取远端特征；从麦克风信号中提取麦克风特征；通过将麦克风特征和远端特征供应给声学回声消除模块来计算估计的近端特征，该声学回声消除模块包括递归神经网络，该递归神经网络包括：编码器，该编码器包括多个门控递归单元、和解码器，该解码器包括多个门控递归单元；从估计的近端特征计算估计的近端信号；并将估计的近端信号传输到远端设备。递归神经网络可以包括上下文注意力模块；并且递归神经网络可以取基于远端特征、麦克风特征和声学路径参数计算的多个误差特征作为输入。

专利类型：发明专利

申请/专利号：CN202010235125.8

申请日期：2020-03-27

公开/公告号：CN111755019A

公开/公告日：2020-10-09

主分类号：G10L21/0208(2013.01)

申请/专利权人:三星电子株式会社

发明/设计人:A.法泽利;李正元;M.艾哈米

主申请人地址:韩国京畿道

专利代理机构:北京市柳沈律师事务所

代理人:梁栋国

国别省市代码:韩国;KR

权利要求：

1.一种用于执行回声消除的系统，所述系统包括：处理器；以及存储指令的存储器，当由所述处理器执行时，所述指令使所述处理器：在近端设备处从远端设备接收远端信号；在所述近端设备处记录麦克风信号，所述麦克风信号包括：近端信号；以及对应于所述远端信号的回声信号；从所述远端信号中提取多个远端特征；从所述麦克风信号中提取多个麦克风特征；通过将所述麦克风特征和所述远端特征供应给声学回声消除模块，从所述麦克风信号计算多个估计的近端特征，所述声学回声消除模块包括上下文注意力神经网络，所述上下文注意力神经网络包括：编码器，所述编码器包括多个门控递归单元，所述编码器被配置为将所述麦克风特征和所述远端特征编码为编码特征；上下文注意力模块，所述上下文注意力模块被配置为从所述编码特征计算上下文注意力特征；以及解码器，所述解码器包括多个门控递归单元，所述解码器被配置为从所述上下文注意力特征解码所述估计的近端特征；从所述估计的近端特征计算估计的近端信号；并且将所述估计的近端信号传输到所述远端设备。 2.根据权利要求1所述的系统，其中，所述编码器包括门控递归单元的一个或更多个层，并且所述编码特征对应于所述编码器的门控递归单元的一个或更多个层中的最后一层的输出，其中，所述编码特征可以被供应给所述上下文注意力模块的多头自注意力层；并且其中所述解码器包括门控递归单元的一个或更多个层，并且所述估计的近端特征对应于所述解码器的门控递归单元的一个或更多个层中的最后一层的输出。 3.根据权利要求2所述的系统，其中所述上下文注意力模块还包括被配置为接收所述多头自注意力层的输出的多头注意力层。 4.根据权利要求3所述的系统，其中，所述上下文注意力模块还包括在所述多头自注意力层和所述多头注意力层之间的第一层归一化层。 5.根据权利要求4所述的系统，其中，所述上下文注意力模块还包括第二层归一化层，所述第二层归一化层被配置为根据来自所述上下文注意力模块的其他层的输出来计算所述上下文注意力特征。 6.根据权利要求1所述的系统，其中所述存储器还存储指令，当由所述处理器执行时，所述指令使所述处理器：根据先前的声学路径参数、先前的远端特征以及先前的麦克风特征来计算多个声学路径参数；以及基于所述远端特征、所述麦克风特征和所述声学路径参数计算多个误差特征，并且其中，所述声学回声消除模块还被配置为基于所述误差特征从所述麦克风信号计算所述多个估计的近端特征。 7.根据权利要求1所述的系统，其中，被供应给所述上下文注意力神经网络的所述远端特征包括远端特征的当前帧和远端特征的多个先前帧的因果窗口，并且其中，被供应给所述上下文注意力神经网络的所述麦克风特征包括麦克风特征的当前帧和麦克风特征的多个先前帧的因果窗口。 8.根据权利要求7所述的系统，其中，所述估计的近端特征包括估计的近端特征的当前帧和估计的近端特征的多个先前帧的因果窗口，并且其中，通过迭代地训练多个参数来训练所述上下文注意力神经网络，所述多个参数将上下文注意力神经网络配置为将所述估计的近端特征和所述多个训练数据的多个真值近端特征之间的差异最小化。 9.根据权利要求8所述的系统，其中，所述训练数据通过以下方式生成：加载训练数据的语料库，所述语料库包括来自多个不同人类说话者的记录的话语；选择多对人类说话者；对于每对人类说话者：级联所述对人类说话者中的第一说话者的多个话语以生成训练远端信号；变换级联的话语以模拟声学路径，从而生成训练回声信号；填充所述对人类说话者中的第二说话者的话语，以生成长度等于所述训练远端信号的训练近端信号；以及将所述训练回声信号与所述训练近端信号混合以生成训练麦克风信号。 10.根据权利要求9所述的系统，其中，所述变换所述级联的话语包括将所述远端信号与模拟房间的房间脉冲响应进行卷积。 11.根据权利要求10所述的系统，其中，所述变换所述级联的话语还包括：对所述远端信号应用硬削波以产生削波的远端信号；并且对所述削波的远端信号施加sigmoidal失真。 12.一种用于执行回声消除的系统，所述系统包括：处理器；以及存储指令的存储器，当由所述处理器执行时，所述指令使所述处理器：从远端设备接收远端信号；记录麦克风信号，包括：近端信号；以及对应于所述远端信号的回声信号；从所述远端信号中提取多个远端特征；从所述麦克风信号中提取多个麦克风特征；根据先前的声学路径参数、先前的远端特征以及先前的麦克风特征来计算多个声学路径参数；基于所述远端特征、所述麦克风特征和所述声学路径参数计算多个误差特征；通过将所述麦克风特征、所述远端特征和所述误差特征供应给声学回声消除模块，从所述麦克风信号计算多个估计的近端特征，所述声学回声消除模块包括递归神经网络，所述递归神经网络包括：编码器，所述编码器包括多个门控递归单元，所述编码器被配置为将所述麦克风特征和所述远端特征编码为编码特征；以及解码器，所述解码器包括多个门控递归单元，所述解码器被配置为基于所述编码特征对所述估计的近端特征进行解码；从所述估计的近端特征计算估计的近端信号；并且将所述估计的近端信号传输到所述远端设备。 13.根据权利要求12所述的系统，其中，所述声学回声消除模块还包括被配置为从所述编码特征计算上下文注意力特征的上下文注意力模块，并且其中，所述解码器被配置为基于所述上下文注意力特征来计算所述估计的近端特征。 14.根据权利要求12所述的系统，其中，被供应给所述声学回声消除模块的所述远端特征包括远端特征的当前帧和远端特征的多个先前帧的因果窗口，其中，被供应给所述声学回声消除模块的所述麦克风特征包括麦克风特征的当前帧和麦克风特征的多个先前帧的因果窗口，并且其中，被供应给所述声学回声消除模块的所述误差特征包括误差特征的当前帧和误差特征的多个先前帧的因果窗口。 15.根据权利要求12所述的系统，其中，所述估计的近端特征包括估计的近端特征的当前帧和估计的近端特征的多个先前帧的因果窗口，并且其中，通过迭代地训练多个参数来训练所述递归神经网络，所述多个参数将所述递归神经网络配置为将所述估计的近端特征和所述多个训练数据的多个真值近端特征之间的差异最小化。 16.根据权利要求15所述的系统，其中，所述训练数据通过以下方式生成：加载训练数据的语料库，所述语料库包括来自多个不同人类说话者的记录的话语；选择多对人类说话者；对于每对人类说话者：级联所述对人类说话者中的第一说话者的多个话语以生成训练远端信号；变换级联的话语以模拟声学路径，从而生成训练回声信号；填充所述对人类说话者中的第二说话者的话语，以生成长度等于所述训练远端信号的训练近端信号；以及将所述训练回声信号与所述训练近端信号混合以生成训练麦克风信号。 17.根据权利要求16所述的系统，其中，所述变换所述级联的话语包括将所述远端信号与模拟房间的房间脉冲响应进行卷积。 18.根据权利要求17所述的系统，其中，所述变换所述级联的话语包括：对所述远端信号应用硬削波以产生削波的远端信号；并且对所述削波的远端信号施加sigmoidal失真。 19.根据权利要求12所述的系统，其中，所述远端特征、所述麦克风特征和所述估计的近端特征包括对数谱空间中的对数短时傅立叶变换特征。

专利专题