一种语音处理方法、装置、设备及存储介质

引用

摘要：

本申请实施例提供一种语音处理方法、装置、设备及存储介质，其中的方法可包括：确定待处理的目标语音帧对应的历史语音帧；获取历史语音帧的频域特征和历史语音帧的时域参数；根据历史语音帧的频域特征与历史语音帧的时域参数之间的相关性，预测目标语音帧的参数集，参数集中包含至少两个参数；根据参数集重建目标语音帧。本申请实施例能够弥补传统信号分析处理技术的不足，提升语音处理能力。

专利类型：发明专利

申请/专利号：CN202010416636.X

申请日期：2020-05-15

公开/公告号：CN111554309A

公开/公告日：2020-08-18

主分类号：G10L19/00(2013.01)

申请/专利权人:腾讯科技(深圳)有限公司

发明/设计人:肖玮;王蒙;朱凌;王文龙

主申请人地址:518057 广东省深圳市南山区高新区科技中一路腾讯大厦35层

专利代理机构:广州三环专利商标代理有限公司

代理人:熊永强%杜维

国别省市代码:广东;44

权利要求：

1.一种语音处理方法，其特征在于，包括：确定待处理的目标语音帧对应的历史语音帧；获取所述历史语音帧的频域特征和所述历史语音帧的时域参数；根据所述历史语音帧的频域特征与所述历史语音帧的时域参数之间的相关性，预测所述目标语音帧的参数集，所述参数集中包含至少两个参数；根据所述参数集重建所述目标语音帧。 2.如权利要求1所述的方法，其特征在于，所述根据所述参数集重建所述目标语音帧，包括：根据所述参数集建立重建滤波器；获取目标语音帧的激励信号；采用所述重建滤波器对所述目标语音帧的激励信号进行滤波处理，得到所述目标语音帧。 3.如权利要求2所述的方法，其特征在于，所述获取目标语音帧的激励信号，包括：获取所述历史语音帧的激励信号；根据所述历史语音帧的激励信号估计所述目标语音帧的激励信号。 4.如权利要求3所述的方法，其特征在于，所述目标语音帧是指经VoIP系统传输的语音信号中的第n帧语音帧；所述历史语音帧包括经所述VoIP系统传输的语音信号中的第n-t帧至第n-1帧共t帧语音帧，n、t均为正整数。 5.如权利要求4所述的方法，其特征在于，所述历史语音帧的激励信号包括第n-1帧语音帧的激励信号；所述根据所述历史语音帧的激励信号估计所述目标语音帧的激励信号，包括：将所述第n-1帧语音帧的激励信号确定为所述目标语音帧的激励信号。 6.如权利要求4所述的方法，其特征在于，所述历史语音帧的激励信号包括第n-t帧至第n-1帧中各帧语音帧的激励信号；所述根据所述历史语音帧的激励信号估计所述目标语音帧的激励信号，包括：对所述第n-t帧至第n-1帧共t帧语音帧的激励信号进行平均值计算，得到所述目标语音帧的激励信号。 7.如权利要求4所述的方法，其特征在于，所述历史语音帧的激励信号包括第n-t帧至第n-1帧中各帧语音帧的激励信号；所述根据所述历史语音帧的激励信号估计所述目标语音帧的激励信号，包括：对所述第n-t帧至第n-1帧共t帧语音帧的激励信号进行加权求和，得到所述目标语音帧的激励信号。 8.如权利要求1所述的方法，其特征在于，所述根据所述历史语音帧的频域特征与所述历史语音帧的时域参数之间的相关性，预测所述目标语音帧的参数集，包括：调用网络模型对所述历史语音帧的频域特征和所述历史语音帧的时域参数进行预测处理，得到所述目标语音帧的参数集；所述参数集中包含至少两个参数，所述网络模型包含多个神经网络，所述神经网络的数量根据所述参数集中的参数数量确定。 9.如权利要求8所述的方法，其特征在于，所述网络模型包括第一神经网络及至少两个第二神经网络，所述第二神经网络属于所述第一神经网络的子网络；一个所述第二神经网络与所述参数集中的一种参数相对应；所述调用网络模型对所述历史语音帧的频域特征和所述历史语音帧的时域参数进行预测处理，得到所述目标语音帧的参数集，包括：调用所述第一神经网络对所述历史语音帧的频域特征进行预测处理，得到所述目标语音帧的虚拟频域特征；将所述目标语音帧的虚拟频域特征和所述历史语音帧的时域参数作为输入信息分别输入至所述至少两个第二神经网络中进行预测处理，得到所述目标语音帧的参数集中的至少两个参数。 10.如权利要求1所述的方法，其特征在于，所述获取所述历史语音帧的频域特征，包括：对所述历史语音帧进行短时傅里叶变换处理，得到所述历史语音帧对应的频域系数；从所述历史语音帧对应的频域系数中提取幅度谱作为所述历史语音帧的频域特征。 11.如权利要求2所述的方法，其特征在于，若所述目标语音帧为清音帧，则所述历史语音帧的时域参数包括所述历史语音帧的短时相关性参数，所述参数集包括所述目标语音帧的短时相关性参数；所述重建滤波器包括线性预测编码滤波器；所述目标语音帧包括k个分帧，所述目标语音帧的短时相关性参数包括所述目标语音帧的第k个分帧的线谱频率及内插因子，k为大于1的整数。 12.如权利要求2所述的方法，其特征在于，若所述目标语音帧为浊音帧，则所述历史语音帧的时域参数包括所述历史语音帧的短时相关性参数和长时相关性参数，所述参数集包括所述目标语音帧的短时相关性参数和所述目标语音帧的长时相关性参数；所述重建滤波器包括长时预测滤波器和线性预测编码滤波器；所述目标语音帧包括k个分帧，所述目标语音帧的短时相关性参数包括所述目标语音帧的第k个分帧的线谱频率及内插因子，k为大于1的整数；所述目标语音帧包括m个子帧，所述目标语音帧的长时相关性参数包括所述目标语音帧的各个子帧的基音延迟和长时预测系数，m为正整数。 13.如权利要求8所述的方法，其特征在于，所述网络模型还包括第三神经网络，所述第三神经网络与所述第一神经网络属于并行网络；所述历史语音帧的时域参数包括所述历史语音帧的能量参数；则所述方法还包括：调用所述第三神经网络对所述历史语音帧的能量参数进行预测处理，得到所述目标语音帧的能量参数，所述目标语音帧的能量参数属于所述目标语音帧的参数集中的一种参数；所述目标语音帧包括m个子帧，所述目标语音帧的能量参数包括所述目标语音帧的各个子帧的增益值。 14.一种语音处理方法，其特征在于，包括：接收经VoIP系统传输的语音信号；当所述语音信号中的目标语音帧丢失时，采用如权利要求1-13任一项所述的方法重建所述目标语音帧；基于所述重建的目标语音帧输出所述语音信号。 15.如权利要求14所述的方法，其特征在于，所述方法还包括：获取所述目标语音帧的冗余信息；当所述语音信号中的目标语音帧丢失时，根据所述目标语音帧的冗余信息重建所述目标语音帧；若根据所述目标语音帧的冗余信息重建所述目标语音帧失败，则触发采用如权利要求1-13任一项所述的方法重建所述目标语音帧。 16.一种语音处理装置，其特征在于，包括：确定单元，用于确定待处理的目标语音帧对应的历史语音帧；获取单元，用于获取所述历史语音帧的频域特征和所述历史语音帧的时域参数；处理单元，用于根据所述历史语音帧的频域特征与所述历史语音帧的时域参数之间的相关性，预测所述目标语音帧的参数集，所述参数集中包含至少两个参数；以及用于根据所述参数集重建所述目标语音帧。 17.一种语音处理装置，其特征在于，包括：接收单元，用于接收经VoIP系统传输的语音信号；处理单元，用于当所述语音信号中的目标语音帧丢失时，采用如权利要求1-13任一项所述的方法重建所述目标语音帧；输出单元，用于基于所述重建的目标语音帧输出所述语音信号。 18.一种语音处理设备，其特征在于，所述设备包括：处理器，适于实现一条或多条指令；以及，计算机可读存储介质，存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如权利要求1-15任一项所述的语音处理方法。 19.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如权利要求1-15任一项所述的语音处理方法。

专利专题