基于声音多特征贝叶斯网络融合的话者识别研究

引用

摘要：

针对基于语音单一特征提取方法所存在的话者识别准确率较低的问题,提出将话者语音中反映人耳听觉感知特性的MFCC特征和接近心理声学临界频带的1/3倍频程(1/3 octave)特征作为话者声音的特征参数,设计话者识别的贝叶斯网络,融合2种声音特征参数,通过贝叶斯网络推理实现话者识别.贝叶斯网络通过学习过程确定已注册话者各声音特征的条件概率.进行话者识别时,贝叶斯网络利用贝叶斯定理及条件独立性假设融合待识别话者声音的MFCC特征和1/3倍频程特征,计算每个已注册话者对输入语音特征矢量的后验概率,根据后验概率的大小实现待识别话者的推断.话者识别实验结果表明:提出的基于声音多特征贝叶斯网络融合的话者识别方法可行有效,识别正确率达到100％.

关键词：MFCC特征、1/3倍频程特征、贝叶斯网络、后验概率、话者识别、融合

所属期刊栏目：34

分类号：TP391.42(计算技术、计算机技术)

资助基金：国家自然科学基金50975179;上海市教委科研创新项目11ZZ136;上海市科委科研计划项目12DZ2252300

在线出版日期：2013-10-29（万方平台首次上网日期，不代表论文的发表时间）

页数：共10页

页码：2058-2067

英文信息展示

期刊专题