基于Deep Speech与多层LSTM的儿童朗读语音评价模型
现代人大多忽略了朗读的重要性,然而对于5~12岁的儿童,朗读不仅是学习过程中必备的技能,还是陶冶情操的有效手段.由于朗读语音信号的特征与评价标准之间存在着非线性关系,递归神经网络虽然适用于时间序列的预测,但是对长时间跨度的预测效果有限.基于此,根据儿童朗读语音特点及其评价体系,设计了一种基于Deep-Speech与三层长短期记忆(Long Short-Term Memory,LSTM)神经网络相结合的模型.首先,在添加注意力机制的基础上,提出朗读语音评价的准确性和流利性度量,以频谱图作为特征提取的输入,其中,朗读评价的准确性采用改进后的Deep Speech以提高音素识别的准确率,流利性评价将频谱图送至三层LSTM模型中以呈现时间序列的影响;然后,将结果送入注意力机制进行权重调节;最终,将计算的总评价结果用于儿童朗读语音的评分.使用"出口成章"软件提供的儿童朗读语料库和TensorFlow平台进行实验.结果表明,与传统的模型相比,此模型不仅可以精确判断朗读的正确性和朗读的流利性,而且其评价模型获得的评分结果较准确.
频谱图、长短期记忆网络、注意力机制、DeepSpeech、朗读语音评价模型
46
TP183(自动化基础理论)
辽宁省自然科学基金项目20180551068
2019-12-19(万方平台首次上网日期,不代表论文的发表时间)
共5页
108-111,148