10.3969/j.issn.1003-0530.2011.12.018
多分形谱簇研究及其在说话人识别中的应用
语音是一种复杂的非线性信号,这使得基于线性系统理论发展起来的传统说话人识别技术性能难以进一步提高.本文提出了多分形谱簇分析方法,用于分析语音信号的非线性特征,并应用于短语音(2秒)说话人识别.通过对Cantor集的仿真实验,发现不同标度区能反映出系统不同阶段的生长规律,因此可用一组连续变化的多分形谱分层次地表征系统的分形特性,即多分形谱簇分析方法.然后结合语信号的分形特点,提出一种语音的多分形谱簇特征(Multifractal Spectrum Cluster Feature,MSCF)的提取方法.最后将几种非线性特征与短时谱特征结合用于说话人识别,基于TIMIT数据库50人的实验表明,非线性特征与短时谱特征互补性较强,特别是MSCF与MFCC、LPC特征结合,使得系统的误识率下降到0.8%.
说话人识别、多分形谱簇、标度区、高斯混合模型
27
TN912.3
2009江苏省自然科学基金资助BK2009059
2012-04-20(万方平台首次上网日期,不代表论文的发表时间)
共6页
1914-1919