DOI：10.3969/j.issn.1003-0530.2011.12.018

多分形谱簇研究及其在说话人识别中的应用

引用

摘要：

语音是一种复杂的非线性信号,这使得基于线性系统理论发展起来的传统说话人识别技术性能难以进一步提高.本文提出了多分形谱簇分析方法,用于分析语音信号的非线性特征,并应用于短语音(2秒)说话人识别.通过对Cantor集的仿真实验,发现不同标度区能反映出系统不同阶段的生长规律,因此可用一组连续变化的多分形谱分层次地表征系统的分形特性,即多分形谱簇分析方法.然后结合语信号的分形特点,提出一种语音的多分形谱簇特征(Multifractal Spectrum Cluster Feature,MSCF)的提取方法.最后将几种非线性特征与短时谱特征结合用于说话人识别,基于TIMIT数据库50人的实验表明,非线性特征与短时谱特征互补性较强,特别是MSCF与MFCC、LPC特征结合,使得系统的误识率下降到0.8％.

关键词：说话人识别、多分形谱簇、标度区、高斯混合模型

所属期刊栏目：27

分类号：TN912.3

资助基金：2009江苏省自然科学基金资助BK2009059

在线出版日期：2012-04-20（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：1914-1919

英文信息展示

期刊专题