10.11772/j.issn.1001-9081.2014.06.1694
发音错误检测中基于多数据流的Tandem特征方法
针对发音错误检测中标注的发音数据资源有限的情况,提出在Tandem系统框架下利用其他数据来提高特征的区分性.以中国人的英语发音为研究对象,选取了相对容易获取的无校正发音数据、母语普通话和母语英语作为辅助数据,实验结果表明,这几种数据都能够有效地提高系统性能,其中无校正数据表现出最好的性能.同时,比较了不同的扩展帧长,以多层神经感知(MLP)和深度神经网络(DNN)作为典型的浅层和深层神经网络,以及Tandem特征的不同结构对系统性能的影响.最后,多数据流融合的策略用于进一步提高系统性能,基于DNN的无校正发音数据流和母语英语数据流合并的Tandem特征取得了最好的性能,与基线系统相比,识别正确率提高了7.96%,错误类型诊断正确率提高了14.71%.
发音错误检测、Tandem特征、发音规则、深度神经网络(DNN)、多层神经感知(MLP)
34
TP391.42(计算技术、计算机技术)
国家自然科学基金资助项目61370034,61273268,61005019,61105017
2014-07-30(万方平台首次上网日期,不代表论文的发表时间)
共5页
1694-1698