基于DNN的低资源语音识别特征提取技术

引用

摘要：

针对低资源训练数据条件下深层神经网络(Deep neural network,DNN)特征声学建模性能急剧下降的问题,提出两种适合于低资源语音识别的深层神经网络特征提取方法.首先基于隐含层共享训练的网络结构,借助资源较为丰富的语料实现对深层瓶颈神经网络的辅助训练,针对BN层位于共享层的特点,引入Dropout,Maxout,Rectified linear units等技术改善多流训练样本分布不规律导致的过拟合问题,同时缩小网络参数规模、降低训练耗时;其次为了改善深层神经网络特征提取方法,提出一种基于凸非负矩阵分解(Convex-non-negative matrix factorization,CNMF)算法的低维高层特征提取技术,通过对网络的权值矩阵分解得到基矩阵作为特征层的权值矩阵,然后从该层提取一种新的低维特征.基于Vystadial 2013的1小时低资源捷克语训练语料的实验表明,在26.7小时的英语语料辅助训练下,当使用Dropout和Rectified linear units时,识别率相对基线系统提升7.0％;当使用Dropout和Maxout时,识别率相对基线系统提升了12.6％,且网络参数数量相对其他系统降低了62.7％,训练时间降低了25％.而基于矩阵分解的低维特征在单语言训练和辅助训练的两种情况下都取得了优于瓶颈特征(Bottleneck features,BNF)的识别率,且在辅助训练的情况下优于深层神经网络隐马尔科夫识别系统,提升幅度从0.8％～3.4％不等.

关键词：低资源语音识别、深层神经网络、瓶颈特征、凸非负矩阵分解

所属期刊栏目：43

分类号：TP3;TN9

资助基金：国家自然科学基金61673395,61302107,61403415资助 Supported by National Natural Science Foundation of China61673395,61302107,61403415

在线出版日期：2017-09-18（万方平台首次上网日期，不代表论文的发表时间）

页数：共12页

页码：1208-1219

英文信息展示

期刊专题