10.3778/j.issn.1673-9418.2006057
联合总变率空间和时延神经网络的说话人识别
在短语音环境下,总变率空间对语音概率分布估计不足,导致说话人识别性能下降.针对上述问题,提出一种基于总变率空间和时延神经网络(TDNN)的增强说话人身份向量的方法.目的 是学习总变率空间和时延神经网络的线性相关性,同时提取说话人嵌入向量并投影在新的空间上,组合成新的说话人超向量来增强说话人信息.训练阶段,分别训练总变率空间和时延神经网络,重新组建一个无关说话人集,从中提取身份向量和x向量并在典型关联分析(CCA)下得到投影矩阵;注册和测试阶段,抽取注册和测试说话人的嵌入向量,通过投影矩阵映射在新空间中,然后组合向量增强说话人身份信息.实验表明,在短注册时长和短测试时长下,融合的新向量比基线身份向量、x向量在等误差率上都有明显下降.
总变率空间;时延神经网络(TDNN);典型关联分析(CCA);短语音
15
TP391(计算技术、计算机技术)
国家自然科学基金61761025
2021-08-06(万方平台首次上网日期,不代表论文的发表时间)
共10页
1255-1264