10.11772/j.issn.1001-9081.2023010062
基于双向长短时记忆和卷积Transformer的声学词嵌入模型
示例查询语音关键词检测中,卷积神经网络(CNN)或者循环神经网络(RNN)提取到的声学词嵌入语音信息有限,为更好地表示语音内容以及改善模型的性能,提出一种基于双向长短时记忆(Bi-LSTM)和卷积Transformer的声学词嵌入模型.首先,使用Bi-LSTM提取特征、对语音序列进行建模,并通过叠加方式来提高模型的学习能力;其次,为了能在捕获全局信息的同时学习到局部信息,将CNN和Transformer编码器并联连接组成卷积Transformer,充分利用它在特征提取上的优势,聚合更多有效的信息,提高嵌入的区分性.在对比损失约束下,所提模型平均精度达到了94.36%,与基于注意力的Bi-LSTM模型相比,平均精度提高了1.76%.实验结果表明,所提模型可以有效改善模型性能,更好地实现示例查询语音关键词检测.
卷积神经网络、声学词嵌入、语音信息、示例查询语音关键词检测、循环神经网络
44
TP183(自动化基础理论)
2024-01-31(万方平台首次上网日期,不代表论文的发表时间)
共6页
123-128