一种语音处理方法、装置、设备及存储介质

引用

摘要：

本申请实施例提供一种语音处理方法、装置、设备及存储介质，其中的方法可包括：确定待处理的目标语音帧对应的历史语音帧；获取历史语音帧的频域特征和历史语音帧的时域参数；提取历史语音帧的时域参数的统计特征；调用网络模型对历史语音帧的频域特征、历史语音帧的时域参数及历史语音帧的时域参数的统计特征进行预测处理，得到目标语音帧的参数集，参数集中包含至少两个参数；根据参数集重建目标语音帧。本申请实施例能够弥补传统信号分析处理技术的不足，提升语音处理能力。

专利类型：发明专利

申请/专利号：CN202010417021.9

申请日期：2020-05-15

公开/公告号：CN111554323A

公开/公告日：2020-08-18

主分类号：G10L25/30(2013.01)

申请/专利权人:腾讯科技(深圳)有限公司

发明/设计人:肖玮

主申请人地址:518057 广东省深圳市南山区高新区科技中一路腾讯大厦35层

专利代理机构:广州三环专利商标代理有限公司

代理人:熊永强%杜维

国别省市代码:广东;44

权利要求：

1.一种语音处理方法，其特征在于，包括：确定待处理的目标语音帧对应的历史语音帧；获取所述历史语音帧的频域特征和所述历史语音帧的时域参数；提取所述历史语音帧的时域参数的统计特征；调用网络模型对所述历史语音帧的频域特征、所述历史语音帧的时域参数及所述历史语音帧的时域参数的统计特征进行预测处理，得到所述目标语音帧的参数集，所述参数集中包含至少两个参数；根据所述参数集重建所述目标语音帧。 2.如权利要求1所述的方法，其特征在于，所述历史语音帧的时域参数包括所述历史语音帧的短时相关性参数，所述历史语音帧的短时相关性参数包括所述历史语音帧的线谱频率；所述提取所述历史语音帧的时域参数的统计特征，包括：采用统计特征计算公式对所述历史语音帧的线谱频率进行计算得到所述统计特征；其中，所述统计特征包括以下至少一种特征：第一统计特征、第二统计特征和第三统计特征；所述第一统计特征用于反映所述历史语音帧的线谱频率对应的角频率随时间变化而产生的变动情况；所述第二统计特征用于反映所述历史语音帧的线谱频率对应的角频率的均值；所述第三统计特征用于反映所述历史语音帧的线谱频率对应的角频率的高阶矩。 3.如权利要求1所述的方法，其特征在于，所述历史语音帧的频域特征包括所述历史语音帧对应的频域系数的幅度谱；若所述目标语音帧为清音帧，则所述历史语音帧的时域参数包括所述历史语音帧的短时相关性参数，所述参数集包括所述目标语音帧的短时相关性参数；所述网络模型包括第一神经网络及至少两个第二神经网络，所述第二神经网络属于所述第一神经网络的子网络；一个所述第二神经网络与所述参数集中的一种参数相对应；所述调用网络模型对所述历史语音帧的频域特征、所述历史语音帧的时域参数及所述历史语音帧的时域参数的统计特征进行预测处理，得到所述目标语音帧的参数集，包括：调用所述第一神经网络对所述历史语音帧的频域特征进行预测处理，得到所述目标语音帧的虚拟频域特征；将所述目标语音帧的虚拟频域特征、所述历史语音帧的短时相关性参数和所述统计特征作为输入信息分别输入至所述第二神经网络中进行预测处理，得到所述参数集中的所述目标语音帧的短时相关性参数；其中，所述目标语音帧包括k个分帧，所述目标语音帧的短时相关性参数包括所述目标语音帧的第k个分帧的线谱频率及内插因子，k为大于1的整数。 4.如权利要求1所述的方法，其特征在于，所述历史语音帧的频域特征包括所述历史语音帧对应的频域系数的幅度谱；若所述目标语音帧为浊音帧，则所述历史语音帧的时域参数包括所述历史语音帧的短时相关性参数和长时相关性参数，所述参数集包括所述目标语音帧的短时相关性参数和所述目标语音帧的长时相关性参数；所述网络模型包括第一神经网络及至少两个第二神经网络，所述第二神经网络属于所述第一神经网络的子网络；一个所述第二神经网络与所述参数集中的一种参数相对应；所述调用网络模型对所述历史语音帧的频域特征、所述历史语音帧的时域参数及所述历史语音帧的时域参数的统计特征进行预测处理，得到所述目标语音帧的参数集，包括：调用所述第一神经网络对所述历史语音帧的频域特征进行预测处理，得到所述目标语音帧的虚拟频域特征；将所述目标语音帧的虚拟频域特征、所述历史语音帧的短时相关性参数和所述统计特征作为输入信息分别输入至用于预测短时相关性参数的第二神经网络中进行预测处理，得到所述参数集中的所述目标语音帧的短时相关性参数；以及，将所述目标语音帧的虚拟频域特征和所述历史语音帧的长时相关性参数作为输入信息分别输入至用于预测长时相关性参数的第二神经网络中进行预测处理，得到所述参数集中的所述目标语音帧的长时相关性参数；其中，所述目标语音帧包括k个分帧，所述目标语音帧的短时相关性参数包括所述目标语音帧的第k个分帧的线谱频率及内插因子，k为大于1的整数；所述目标语音帧包括m个子帧，所述目标语音帧的长时相关性参数包括所述目标语音帧的各个子帧的基音延迟和长时预测系数，m为正整数。 5.如权利要求1所述的方法，其特征在于，所述根据所述参数集重建所述目标语音帧，包括：根据所述参数集建立重建滤波器；获取目标语音帧的激励信号；采用所述重建滤波器对所述目标语音帧的激励信号进行滤波处理，得到所述目标语音帧；其中，若所述目标语音帧为清音帧，所述重建滤波器包括线性预测编码滤波器；若所述目标语音帧为浊音帧，所述重建滤波器包括长时预测滤波器和线性预测编码滤波器。 6.如权利要求5所述的方法，其特征在于，所述目标语音帧是指经VoIP系统传输的语音信号中的第n帧语音帧；所述历史语音帧包括经所述VoIP系统传输的语音信号中的第n-t帧至第n-1帧共t帧语音帧，n、t均为正整数；所述获取目标语音帧的激励信号包括：根据历史语音帧的激励信号估计所述目标语音帧的激励信号；其中，若所述历史语音帧的激励信号包括第n-1帧语音帧的激励信号，则所述第n-1帧语音帧的激励信号为所述目标语音帧的激励信号；若所述历史语音帧的激励信号包括第n-t帧至第n-1帧中各帧语音帧的激励信号，则所述第n-t帧至第n-1帧共t帧语音帧的激励信号的平均值为所述目标语音帧的激励信号；或者，所述第n-t帧至第n-1帧共t帧语音帧的激励信号的加权求和的结果为所述目标语音帧的激励信号。 7.如权利要求3或4所述的方法，其特征在于，所述网络模型还包括第三神经网络，所述第三神经网络与所述第一神经网络属于并行网络；所述历史语音帧的时域参数包括所述历史语音帧的能量参数；则所述方法还包括：调用所述第三神经网络对所述历史语音帧的能量参数进行预测处理，得到所述目标语音帧的能量参数，所述目标语音帧的能量参数属于所述目标语音帧的参数集中的一种参数；所述目标语音帧包括m个子帧，所述目标语音帧的能量参数包括所述目标语音帧的各个子帧的增益值。 8.一种语音处理方法，其特征在于，包括：接收经VoIP系统传输的语音信号；当所述语音信号中的目标语音帧丢失时，采用如权利要求1-7任一项所述的方法重建所述目标语音帧；基于所述重建的目标语音帧输出所述语音信号。 9.如权利要求8所述的方法，其特征在于，所述方法还包括：获取所述目标语音帧的冗余信息；当所述语音信号中的目标语音帧丢失时，根据所述目标语音帧的冗余信息重建所述目标语音帧；若根据所述目标语音帧的冗余信息重建所述目标语音帧失败，则触发采用如权利要求1-7任一项所述的方法重建所述目标语音帧。 10.一种语音处理装置，其特征在于，包括：确定单元，用于确定待处理的目标语音帧对应的历史语音帧；获取单元，用于获取所述历史语音帧的频域特征和所述历史语音帧的时域参数；处理单元，用于提取所述历史语音帧的时域参数的统计特征，并调用网络模型对所述历史语音帧的频域特征、所述历史语音帧的时域参数及所述历史语音帧的时域参数的统计特征进行预测处理，得到所述目标语音帧的参数集，所述参数集中包含至少两个参数；以及用于根据所述参数集重建所述目标语音帧。 11.一种语音处理装置，其特征在于，包括：接收单元，用于接收经VoIP系统传输的语音信号；处理单元，用于当所述语音信号中的目标语音帧丢失时，采用如权利要求1-7任一项所述的方法重建所述目标语音帧；输出单元，用于基于所述重建的目标语音帧输出所述语音信号。 12.一种语音处理设备，其特征在于，所述设备包括：处理器，适于实现一条或多条指令；以及，计算机可读存储介质，存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如权利要求1-9任一项所述的语音处理方法。 13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如权利要求1-9任一项所述的语音处理方法。

专利专题