基于循环帧序列门控循环单元网络的语音超分辨率方法

引用

摘要：

本发明提供一种基于循环帧序列的门控循环单元网络的语音超分辨率方法，包括如下步骤：(1)对原始语音信号进行预处理；(2)提出构建CFS‑GRU模型；(3)完成基于循环帧序列网络的语音超分辨率。本发明基于GRU搭建的循环结构模型，直接将语音信号序列作为输入，很大程度上减小了计算代价，并且相比于传统方法有着较好的超分辨率效果；相比于LSTM，GRU模型有着较少的模型参数，通过GRU搭建的CFS‑GRU模型能够更快的训练和收敛。使用SegSNRLoss作为损失函数训练的CFS‑GRU模型能够更快的收敛，并且能够使输出帧序列有着较高的信噪比，提高超分辨率语音信号的质量。

专利类型：发明专利

申请/专利号：CN202011374653.8

申请日期：2020-11-30

公开/公告号：CN112562702A

公开/公告日：2021-03-26

主分类号：G10L21/003(2013.01)

申请/专利权人:哈尔滨工程大学

发明/设计人:关键;柳友德;肖飞扬;芦瑶;兰宇晨;田左;王恺瀚;谢明杰;董喆

主申请人地址:150001 黑龙江省哈尔滨市南岗区南通大街145号哈尔滨工程大学科技处知识产权办公室

国别省市代码:黑龙江;23

权利要求：

1.基于循环帧序列的门控循环单元网络的语音超分辨率方法，其特征是：包括如下步骤： (1)对原始语音信号进行预处理：①对原始语音信号进行预加重处理；②对预加重处理后的语音信号进行分帧处理； (2)提出构建CFS-GRU模型：①分别构建两种使单位时间步特征参数增大和减小上采样率倍的GRU；②将两个GRU组合使得时间步和特征参数之间交叉乘上上采样倍率并能够循环输入，构建CFS-GRU模型； (3)完成基于循环帧序列网络的语音超分辨率：①经过预加重和分帧处理的语音信号输入CFS-GRU模型；②使用SegSNRLoss损失函数并使用分帧处理后的高分辨率语音信号进行监督训练；③将训练好的CFS-GRU模型的输出信号帧进行合并得到高分辨率语音，实现语音的超分辨率。 2.根据权利要求1所述的基于循环帧序列的门控循环单元网络的语音超分辨率方法，其特征是：在步骤(1)中对原始语音信号进行预加重处理，y(t)＝x(t)-αx(t-1)，其中，y(t)为预加重后的语音信号，x(t)为原始语音信号，t是时间，α是加权系数，α取值为0.97，对预加重后的语音进行分帧处理，帧长为512，帧移为256。 3.根据权利要求1所述的基于循环帧序列的门控循环单元网络的语音超分辨率方法，其特征是：在步骤(2)中根据上采样率构建两种输出不同特征参数长度的GRU单元，其中将特征参数增大上采样率倍的为GRU0，将特征参数减小上采样率倍的为GRU1，组合两种GRU单元使语音信号能够循环输入，构建CFS-GRU模型。 4.根据权利要求1或3所述的基于循环帧序列的门控循环单元网络的语音超分辨率方法，其特征是：所述步骤(2)中输入的语音信号为(time_step，dim)，其中time_step为时间步长，取值20，dim为单位时间步长的特征参数，大小与分帧处理的帧长一致，取值为512，经过GRU0处理后输出信号(time_step，ratio*dim)，其中ratio为语音的上采样率，将信号重塑为(ratio*time_step，dim)，输入GRU1后得到输出信号将输出信号重塑为(time_step，dim)，再将重塑后的信号输入GRUO，形成循环模型。 5.根据权利要求1所述的基于循环帧序列的门控循环单元网络的语音超分辨率方法，其特征是：在步骤(3)中的损失函数SegSNRLoss定义为：其中LMSE为均方损失误差：SegSNR为语音信号的分段信噪比：其中Si为原始高分辨率语音信号，Pi为模型预测的高分辨率语音信号，n为信号帧长，和m为可调参数，值设置为0.001，m值设置为5。 6.根据权利要求1所述的基于循环帧序列的门控循环单元网络的语音超分辨率方法，其特征是：所述步骤(3)中CFS-GRU模型的输出帧信号合并时重叠帧信号部分取平均值。

专利专题