一种基于时间潜在域特定说话人信息的目标语音提取方法

引用

摘要：

本发明提供一种基于时间潜在域特定说话人信息的目标语音提取方法，包括时间潜在域特征转换模型、目标说话人特征信息指导器与增强提取模块；待处理的复杂声学环境语音信息经过时间潜在域特征转换模型的处理将映射到潜在空间的特征矩阵，此特征矩阵将分别进入目标说话人特征信息指导器与增强提取模块；在目标说话人特征信息指导器中，特征矩阵将被判定为与某一特定的目标说话人潜在特征具有相关性，或者不包含目标说话人特征。本发明能实现从复杂声学环境语音信号到特定目标语音信号的端到端处理，能高效提取出针对特定任务的目标说话人信息，而不受其他干扰信号的影响，保障了模型传递给后续任务的特定目标语音信号具备极高的语音质量与可感知性。

专利类型：发明专利

申请/专利号：CN202011376556.2

申请日期：2020-11-30

公开/公告号：CN112562706A

公开/公告日：2021-03-26

主分类号：G10L21/02(2013.01)

申请/专利权人:哈尔滨工程大学

发明/设计人:兰海燕;董喆;肖飞扬;柳友德;兰宇晨;关键;田左;王恺瀚;谢明杰;芦瑶

主申请人地址:150001 黑龙江省哈尔滨市南岗区南通大街145号哈尔滨工程大学科技处知识产权办公室

国别省市代码:黑龙江;23

权利要求：

1.一种基于时间潜在域特定说话人信息的目标语音提取方法，其特征是，包括时间潜在域特征转换模型、目标说话人特征信息指导器与增强提取模块：待处理的复杂声学环境语音信息经过时间潜在域特征转换模型的处理将映射到潜在空间的特征矩阵，此特征矩阵将分别进入目标说话人特征信息指导器与增强提取模块；在目标说话人特征信息指导器中，特征矩阵将被判定为与某一特定的目标说话人潜在特征具有相关性，或者不包含目标说话人特征，判定得到的编码特征会回传到增强提取模块，当编码特征表明特征矩阵与某一目标说话人相关时，增强提取模块的计算过程将全程考虑到这一编码信息，从而接收目标说话人特征信息指导器的指导功能，而当编码特征表明特征矩阵不包含目标说话人信息时，增强提取模块将停止对目标信息的提取，并输出“无目标信息的提示”，与此同时将原始语音进行“无目标信息指导”的语音增强处理。 2.根据权利要求1所述的基于时间潜在域特定说话人信息的目标语音提取方法，其特征是，所述时间潜在域特征转换模型的损失计算借助语音信号信噪比计算实现，信噪比计算公式如下所示： 3.根据权利要求1所述的基于时间潜在域特定说话人信息的目标语音提取方法，其特征是，所述目标说话人特征信息指导器使用了注意力机制强化了对目标特有特征的关注程度，其编码特征直接作用于后续增强过程时不考虑损失计算，直接与总体提取增强模块共同训练，而其目标预测功能通过已经成熟的交叉熵损失实现梯度更新过程：其中i表示一批训练数据中的某一组，而M表示总共支持的目标数。

专利专题