采用音素分类的因子分析说话人识别方法
提出一种利用深度神经网络和语音学知识进行文本无关的说话人识别的方法.采用深度神经网络(Deep Neural Net-work,DNN)来进行有监督的因子分析建模方法是目前与文本无关说话人识别的研究热点,在此基础上挖掘了不同的音素对识别性能的影响.首先根据语音学知识对DNN的输出节点进行分类,在说话人建模过程中,根据不同的类别来提取不同的后验因子(i-vectors),然后采用拼接的方式得到一个高维的i-vector用于话者识别.在NIST SRE 2012的核心测试任务上,相对于无监督的全空间变量因子分析与基于DNN的因子分析方法,提出的算法都有不同程度的性能提升.综合来看,超过了目前已知的最佳系统性能.
说话人识别、深度神经网络、音素分类、因子分析
37
TP391(计算技术、计算机技术)
安徽省自然科学基金项目1408085MKL78
2016-10-25(万方平台首次上网日期,不代表论文的发表时间)
共5页
2130-2134