10.3969/j.issn.1673-629X.2018.02.011
基于AutoEncoder DBN-VQ的说话人识别系统
基于矢量量化的说话人识别算法,通过描述说话人语音特征的不同分布进行说话人识别.在说话人数量较多,训练语音时长较短时,系统识别率不高.模型训练一般在纯净语音条件下进行,在实际有噪声环境下进行识别时,系统性能会急剧恶化.为改善系统识别性能,提出一种基于自动编码深度置信网络与矢量量化结合的说话人识别方法.该方法采用深度置信网络对说话人语音数据进行学习和挖掘,在语音时长较短时可以更好地捕获说话人的个性特征;同时采用自动编码器有去噪声的特点,构造自动编码深度置信网络,使网络模型可以对有噪语音数据进行有效地噪声过滤.实验结果证明,该方法在说话人训练语音时长有限时,以及对说话人有噪语音进行识别时,系统识别率都有很大提升.
说话人识别、深度置信网络、自动编码器、矢量量化
28
TP302(计算技术、计算机技术)
国家自然科学基金61401227;江苏省博士后基金1402067B
2018-03-29(万方平台首次上网日期,不代表论文的发表时间)
共5页
45-49