10.3969/j.issn.1006-9348.2022.03.051
基于多头注意力机制的端到端土家语语音识别
土家语是一种典型的濒危语言,因其母语人少、无文字、仅以口语形式存在等低资源性,很难典藏大量带标注的语音,导致其消亡速度日益加快,因此挽救和保护濒危语言迫在眉睫.针对上述问题,建立了一种基于多头注意力机制的端到端濒危语言语音识别模型.通过语音时域伸缩技术(time-scale-modification,TSM)改变土家语口语词汇语速对其进行扩充,有效解决了土家语语料不足的问题;建立基于注意力机制的端到端模型Listen,Attend,and Spell(LAS)实现土家语的自动语音识别功能;针对LAS模型中解码器状态向量与编码器状态向量对齐精度不高的问题,引入了多头注意力机制以提高模型的识别准确率.实验结果表明,多头注意力机制通过关注不同位置的空间信息能有效提升模型的表征能力,较传统注意力机制模型识别率提升了4.76%.
濒危语言、低资源、语音识别、语音时域伸缩技术、多头注意力机制
39
TP391(计算技术、计算机技术)
2022-04-24(万方平台首次上网日期,不代表论文的发表时间)
共6页
258-262,282