Transformer在语音识别任务中的研究现状与展望

引用

摘要：

Transformer作为一种新的深度学习算法框架,得到了越来越多研究人员的关注,成为目前的研究热点.Transformer模型中的自注意力机制受人类只关注于重要事物的启发,只对输入序列中重要的信息进行学习.对于语音识别任务来说,重点是把输入语音序列的信息转录为对应的语言文本.过去的做法是将声学模型、发音词典和语言模型组成语音识别系统来实现语音识别任务,而Transformer可以将声学、发音和语言模型集成到单个神经网络中形成端到端语音识别系统,解决了传统语音识别系统的强制对齐和多模块训练等问题.因此,探讨Transformer在语音识别任务中存在的问题是非常有必要的.首先介绍Transformer的模型结构,并且从输入语音序列、深层模型结构和模型推理过程三方面对语音识别任务面临的问题进行分析;其次对现阶段解决语音识别中Transformer模型存在输入语音序列、深层模型结构和模型推理过程的问题进行方法总结和简要概述;最后对Transformer在语音识别任务中的应用方向进行总结和展望.

关键词：Transformer;深度学习;端到端;语音识别

所属期刊栏目：15

分类号：TP18;TN912.34(自动化基础理论)

资助基金：国家自然科学基金;内蒙古自然科学基金;内蒙古自治区科技重大专项;内蒙古自治区关键技术攻关计划项目;内蒙古自治区科技成果转化专项资金项目

在线出版日期：2021-09-16（万方平台首次上网日期，不代表论文的发表时间）

页数：共17页

页码：1578-1594

英文信息展示

期刊专题