联合总变率空间和时延神经网络的说话人识别

引用

摘要：

在短语音环境下,总变率空间对语音概率分布估计不足,导致说话人识别性能下降.针对上述问题,提出一种基于总变率空间和时延神经网络(TDNN)的增强说话人身份向量的方法.目的是学习总变率空间和时延神经网络的线性相关性,同时提取说话人嵌入向量并投影在新的空间上,组合成新的说话人超向量来增强说话人信息.训练阶段,分别训练总变率空间和时延神经网络,重新组建一个无关说话人集,从中提取身份向量和x向量并在典型关联分析(CCA)下得到投影矩阵;注册和测试阶段,抽取注册和测试说话人的嵌入向量,通过投影矩阵映射在新空间中,然后组合向量增强说话人身份信息.实验表明,在短注册时长和短测试时长下,融合的新向量比基线身份向量、x向量在等误差率上都有明显下降.

关键词：总变率空间;时延神经网络(TDNN);典型关联分析(CCA);短语音

所属期刊栏目：15

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金61761025

在线出版日期：2021-08-06（万方平台首次上网日期，不代表论文的发表时间）

页数：共10页

页码：1255-1264

英文信息展示

期刊专题