近年来,随着社会生活水平的不断提高,人们对机器智能人声识别的要求越来越高.高斯混合—隐马尔可夫模型(Gaussian of mixture-hidden Markov model,GMM-HMM)是说话人识别研究领域中最重要的模型.由于该模型对大语音数据的建模能力不是很好,对噪声的顽健性也比较差,模型的发展遇到了瓶颈.为了解决该问题,研究者开始关注深度学习技术.引入了CNN深度学习模型研究连续语音说话人识别问题,并提出了CNN连续说话人识别(continuous speaker recognition of convolutional neural network,CSR-CNN)算法.模型提取固定长度、符合语序的语音片段,形成时间线上的有序语谱图,通过CNN提取特征序列,经过奖惩函数对特征序列组合进行连续测量.实验结果表明,CSR-CNN算法在连续—片段说话人识别领域取得了比GMM-HMM更好的识别效果.
连续语音、语谱图、GMM-HMM、深度学习
33
TP393(计算技术、计算机技术)
浙江省自然科学基金资助项目LY16F020016;国家重点研发计划经费资助项目2016YFB0800201;浙江省重点科技创新团队项目No.2013TD03Zhejiang Natural Science Foundation of ChinaLY16F020016;National Key Research and Development Program of China2016YFB0800201;Zhejiang Province Science and Technology Innovation Program2013TD03