基于CTC准则的普通话识别及改进

引用

摘要：

主流神经网络训练的交叉熵准则针对声学数据的每个帧进行分类优化,而连续语音识别需以序列级的转录准确性为性能度量指标.针对这一差异,构建一种基于序列级转录的端到端语音识别系统.以音素为基本单元建模,并采用连接时序分类(CTC)的目标函数改进长短时记忆网络的结构.在解码过程中引入词典和语言模型,并在前端增加音调特征以丰富声学特征.利用序列区分度训练技术提升CTC模型的建模效果.实验结果表明,该系统的识别效率和识别准确率得到提高,词错误率最低可降至19.09％ ±0.16％.

关键词：序列级、端到端、解码、声学特征、区分度训练

所属期刊栏目：45

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金重大研究计划91538201;泰山学者工程专项经费ts201511020

在线出版日期：2019-07-12（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：249-253,266

英文信息展示

期刊专题