语音识别及端到端技术现状及展望

引用

摘要：

通过对语音识别技术的发展梳理,简单介绍了语音识别的历史和应用现状,并将传统语音识别的技术和当前的研究进展进行描述.传统语音识别采用基于统计的方法,采用声谱特征,在GMM-HMM混合结构上进行训练和匹配.当前的语音识别模型主要基于深度学习的方法,采用CNN、RNN都可以有效的进行特征提取从而建立声学模型.进一步的研究采用了端到端的技术,避免了多个模型间的误差传导.端到端技术主要有CTC技术和attention技术,最新的模型和方法着重研究了attention技术,并在尝试进行与CTC的融合以达到更好的效果.最后结合作者自身的理解,概括了语音识别当前所面临问题和未来发展方向.

关键词：语音识别、隐马尔可夫模型、深度学习、端到端、注意力机制

所属期刊栏目：30

资助基金：陕西省技术创新引导专项;中央高校基本科研业务费高新技术研究培育项目;陕西省自然科学基础研究计划面上项目

在线出版日期：2021-03-23（万方平台首次上网日期，不代表论文的发表时间）

页数：共10页

页码：14-23

英文信息展示

期刊专题