10.3969/j.issn.1000-1220.2012.05.040
采用非参数方法建模的短时话者识别
在与文本无关的声纹识别研究中,目前性能较好而且较成熟的系统均是基于训练并在测试数据时长较长的情况下获得的,如NIST评测中的核心测试环境下训练和测试语音时长约5分钟.而在实际应用中,由于声纹识别的特殊性,用户一般都不太配合,通常很难获得足够多的训练语音数据,从而限制了经典的话者识别系统,大大降低了其性能.本文针对与实际应用直接相关的短时话者识别,提出了一种采用Parzen Window的非参数估计方法,对目标话者的短时数据进行建模,从而达到提高话者模型推广能力的目标.该方法在NIST SRE2006的短时任务10s训练,测试的实验结果与传统的GMM-UBM得分融合后,在等错误率EER下比基线系统相对降低了10.76%.
短时声纹识别、Parzen窗估计、KNN近邻法
33
TP18(自动化基础理论)
2012-09-29(万方平台首次上网日期,不代表论文的发表时间)
共4页
1131-1134