一种语音处理方法、装置、设备及存储介质

引用

摘要：

本申请实施例提供一种语音处理方法、装置、设备及存储介质，其中的方法可包括：确定待处理的目标语音帧对应的历史语音帧；获取历史语音帧的时域参数；根据历史语音帧的时域参数预测得到目标语音帧的参数集，参数集中包含至少两个参数；根据参数集重建目标语音帧。本申请实施例能够弥补传统信号分析处理技术的不足，提升语音处理能力。

专利类型：发明专利

申请/专利号：CN202010416575.7

申请日期：2020-05-15

公开/公告号：CN111554308A

公开/公告日：2020-08-18

主分类号：G10L19/00(2013.01)

申请/专利权人:腾讯科技(深圳)有限公司

发明/设计人:肖玮

主申请人地址:518057 广东省深圳市南山区高新区科技中一路腾讯大厦35层

专利代理机构:广州三环专利商标代理有限公司

代理人:熊永强%杜维

国别省市代码:广东;44

权利要求：

1.一种语音处理方法，其特征在于，包括：确定待处理的目标语音帧对应的历史语音帧；获取所述历史语音帧的时域参数；根据所述历史语音帧的时域参数预测得到所述目标语音帧的参数集，所述参数集中包含至少两个参数；根据所述参数集重建所述目标语音帧。 2.如权利要求1所述的方法，其特征在于，所述目标语音帧是指经VoIP系统传输的语音信号中的第n帧语音帧；所述历史语音帧包括经所述VoIP系统传输的语音信号中的第n-t帧至第n-1帧共t帧语音帧，n、t均为正整数；所述语音信号中的每帧语音帧包含k个分帧和m个子帧，其中，k为大于1的整数，m为正整数。 3.如权利要求1或2所述的方法，其特征在于，所述历史语音帧的时域参数包含所述历史语音帧的长时相关性参数；所述参数集包含所述目标语音帧的长时相关性参数；所述根据所述历史语音帧的时域参数预测得到所述目标语音帧的参数集，包括：调用网络模型对所述历史语音帧的时域波形及所述历史语音帧的长时相关性参数进行预测处理，得到所述目标语音帧的长时相关性参数。 4.如权利要求3所述的方法，所述长时相关性参数包括基音延迟和长时预测系数；所述网络模型包括第一神经网络及至少两个第二神经网络，所述第二神经网络属于所述第一神经网络的子网络；一个所述第二神经网络用于预测所述参数集中的一种长时相关性参数；所述调用网络模型对所述历史语音帧的时域波形及所述历史语音帧的长时相关性参数进行预测处理，得到所述目标语音帧的长时相关性参数，包括：调用所述第一神经网络对所述历史语音帧的时域波形进行处理，得到中间参数；将所述中间参数和所述历史语音帧的基音延迟作为输入信息输入至所述第二神经网络中进行预测处理，得到所述目标语音帧的基音延迟；以及，将所述中间参数和所述历史语音帧的长时预测系数作为输入信息输入至所述第二神经网络中进行预测处理，得到所述目标语音帧的长时预测系数。 5.如权利要求2所述的方法，其特征在于，所述历史语音帧的时域参数包含所述历史语音帧的短时相关性参数；所述历史语音帧的短时相关性参数包括所述历史语音帧的各个分帧的线谱频率；所述参数集包含所述目标语音帧的短时相关性参数；所述目标语音帧的短时相关性参数包括所述目标语音帧的第k个分帧的线谱频率及内插因子；所述对所述历史语音帧的时域参数进行预测处理，得到所述目标语音帧的参数集，包括：比较所述历史语音帧的帧类型及所述目标语音帧的帧类型是否发生变化；根据比较结果对所述历史语音帧的短时相关性参数进行信号推理处理，得到所述目标语音帧的短时相关性参数；其中，所述比较结果包括：帧类型发生变化或帧类型未发生变化；所述帧类型未发生变化是指所述历史语音帧的帧类型与所述目标语音帧的帧类型相同；所述帧类型发生变化包括：所述历史语音帧为浊音帧，而所述目标语音帧为清音帧；或者，所述历史语音帧为清音帧，而所述目标语音帧为浊音帧。 6.如权利要求5所述的方法，其特征在于，所述根据比较结果对所述历史语音帧的短时相关性参数进行信号推理处理，得到所述目标语音帧的短时相关性参数，包括：若所述历史语音帧的帧类型与所述目标语音帧的帧类型相同，则设置所述目标语音帧的内插因子为第一数值；以及，将所述历史语音帧的所有分帧的线谱频率的平均值设置为所述目标语音帧的第k个分帧的线谱频率。 7.如权利要求5所述的方法，其特征在于，所述语音信号中的每帧语音帧的任一个分帧包含p个线谱频率，且所述p个线谱频率中，第f个线谱频率与第f+1个线谱频率被配置为关联对；其中，f为整数且为偶数，p为正整数，0≤f≤p；所述根据比较结果对所述历史语音帧的短时相关性参数进行信号推理处理，得到所述目标语音帧的短时相关性参数，包括：若所述历史语音帧为浊音帧，所述目标语音帧为清音帧，则设置所述目标语音帧的内插因子为第二数值；以及，获取所述历史语音帧的第k个分帧的第f个线谱频率，所述历史语音帧的各个分帧的第f个线谱频率之差的绝对值，以及所述历史语音帧的各个分帧的第f个线谱频率所属关联对中的最大项；将所述历史语音帧的第k个分帧的第f个线谱频率和所述绝对值之和，设置为所述目标语音帧的第k个分帧中的第f个线谱频率；以及，将所述历史语音帧的第k个分帧的第f个线谱频率与所述最大项之和设置为所述为所述目标语音帧的第k个分帧中的第f+1个线谱频率。 8.如权利要求5所述的方法，其特征在于，所述语音信号中的每帧语音帧的任一个分帧包含p个线谱频率，且所述p个线谱频率中，第f个线谱频率与第f+1个线谱频率被配置为关联对；其中，f为整数且为偶数，p为正整数，0≤f≤p；所述根据比较结果对所述历史语音帧的短时相关性参数进行信号推理处理，得到所述目标语音帧的短时相关性参数，包括：若所述历史语音帧为清音帧，所述目标语音帧为清音帧，则设置所述目标语音帧的内插因子为第二数值；以及，获取所述历史语音帧的第k个分帧的第f个线谱频率，所述历史语音帧的各个分帧的第f个线谱频率之差的绝对值，以及所述历史语音帧的各个分帧的第f个线谱频率所属关联对中的最小项；将所述历史语音帧的第k个分帧的第f个线谱频率和所述绝对值之差，设置为所述目标语音帧的第k个分帧中的第f个线谱频率；以及，将所述历史语音帧的第k个分帧的第f个线谱频率与所述最小项之和设置为所述为所述目标语音帧的第k个分帧中的第f+1个线谱频率。 9.如权利要求5所述的方法，其特征在于，所述历史语音帧的时域参数包含所述历史语音帧的长时相关性参数；所述方法还包括：调用网络模型对所述历史语音帧的时域波形及所述历史语音帧的长时相关性参数进行预测处理，得到所述目标语音帧的长时相关性参数；采用所述第n-1帧语音帧的长时相关性参数确定所述第n-1帧语音帧的帧类型，及采用预测得到的所述目标语音帧的长时相关性参数确定所述目标语音帧的帧类型；所述比较所述历史语音帧的帧类型及所述目标语音帧的帧类型是否发生变化，包括：比较所述第n-1帧语音帧的帧类型与所述目标语音帧的帧类型是否发生变化。 10.如权利要求5所述的方法，其特征在于，所述方法还包括：提取所述历史语音帧的各个分帧的线谱频率的统计特征；所述比较所述历史语音帧的帧类型及所述目标语音帧的帧类型是否发生变化，包括：对所述历史语音帧的各个分帧的线谱频率的统计特征进行迭代求差，并对迭代求差结果进行求和计算，得到比较变量；若所述比较变量大于变化阈值，则得到帧类型发生变化的比较结果；若所述比较变化量不大于变化阈值，则得到帧类型未发生变化的比较结果。 11.如权利要求10所述的方法，其特征在于，所述历史语音帧的时域参数包含第n-1帧语音帧的长时相关性参数；所述方法还包括：若所述比较结果为帧类型发生变化，则采用所述第n-1帧语音帧的长时相关性参数确定所述第n-1帧语音帧的帧类型；以及，根据所述第n-1帧语音帧的帧类型，确定所述目标语音帧的帧类型。 12.如权利要求9或11所述的方法，其特征在于，所述语音信号中的任一帧语音帧表示为第i帧语音帧，所述第i帧语音帧的时域参数包含长时相关性参数，所述长时相关性参数包括所述第i帧语音帧的m个子帧的基音延迟；采用所述第i帧的长时相关性参数确定帧类型的方法包括：分别将第i帧语音帧的每个子帧的基音延迟与延迟阈值进行比较，如果子帧的基音延迟低于延迟阈值，则将子帧的基音延迟设置为特定值；统计所述第i帧语音帧中基音延迟为特定值的子帧的数量占比；若所述数量占比大于预置比例，则确定所述第i帧为清音帧；若所述数量占比不大于所述预置比例，则确定所述第i帧为浊音帧。 13.如权利要求2所述的方法，其特征在于，所述根据所述参数集重建所述目标语音帧，包括：根据所述参数集建立重建滤波器；获取目标语音帧的激励信号；采用所述重建滤波器对所述目标语音帧的激励信号进行滤波处理，得到所述目标语音帧；其中，若所述目标语音帧为清音帧，则所述历史语音帧的时域参数包括所述历史语音帧的短时相关性参数，所述参数集包括所述目标语音帧的短时相关性参数；所述重建滤波器包括线性预测编码滤波器；若所述目标语音帧为浊音帧，则所述历史语音帧的时域参数包括所述历史语音帧的短时相关性参数和长时相关性参数，所述参数集包括所述目标语音帧的短时相关性参数和所述目标语音帧的长时相关性参数；所述重建滤波器包括长时预测滤波器和线性预测编码滤波器。 14.如权利要求13所述的方法，其特征在于，所述获取目标语音帧的激励信号，包括：获取所述历史语音帧的激励信号；根据所述历史语音帧的激励信号估计所述目标语音帧的激励信号。 15.如权利要求14所述的方法，其特征在于，所述历史语音帧的激励信号包括第n-1帧语音帧的激励信号；所述根据所述历史语音帧的激励信号估计所述目标语音帧的激励信号，包括：将所述第n-1帧语音帧的激励信号确定为所述目标语音帧的激励信号。 16.如权利要求14所述的方法，其特征在于，所述历史语音帧的激励信号包括第n-t帧至第n-1帧中各帧语音帧的激励信号；所述根据所述历史语音帧的激励信号估计所述目标语音帧的激励信号，包括：对所述第n-t帧至第n-1帧共t帧语音帧的激励信号进行平均值计算，得到所述目标语音帧的激励信号。 17.如权利要求14所述的方法，其特征在于，所述历史语音帧的激励信号包括第n-t帧至第n-1帧中各帧语音帧的激励信号；所述根据所述历史语音帧的激励信号估计所述目标语音帧的激励信号，包括：对所述第n-t帧至第n-1帧共t帧语音帧的激励信号进行加权求和，得到所述目标语音帧的激励信号。 18.如权利要求4所述的方法，其特征在于，所述网络模型还包括第三神经网络，所述第三神经网络与所述第一神经网络或所述第二神经网络属于并行网络；所述历史语音帧的时域参数包括所述历史语音帧的能量参数；则所述方法还包括：调用所述第三神经网络对所述历史语音帧的能量参数进行预测处理，得到所述目标语音帧的能量参数，所述目标语音帧的能量参数属于所述目标语音帧的参数集中的一种参数；所述目标语音帧的能量参数包括所述目标语音帧的各个子帧的增益值。 19.一种语音处理方法，其特征在于，包括：接收经VoIP系统传输的语音信号；当所述语音信号中的目标语音帧丢失时，采用如权利要求1-18任一项所述的方法重建所述目标语音帧；基于所述重建的目标语音帧输出所述语音信号。 20.如权利要求19所述的方法，其特征在于，所述方法还包括：获取所述目标语音帧的冗余信息；当所述语音信号中的目标语音帧丢失时，根据所述目标语音帧的冗余信息重建所述目标语音帧；若根据所述目标语音帧的冗余信息重建所述目标语音帧失败，则触发采用如权利要求1-18任一项所述的方法重建所述目标语音帧。 21.一种语音处理装置，其特征在于，包括：确定单元，用于确定待处理的目标语音帧对应的历史语音帧；获取单元，用于获取所述历史语音帧的时域参数；处理单元，用于根据所述历史语音帧的时域参数预测得到所述目标语音帧的参数集，所述参数集中包含至少两个参数；以及用于根据所述参数集重建所述目标语音帧。 22.一种语音处理装置，其特征在于，包括：接收单元，用于接收经VoIP系统传输的语音信号；处理单元，用于当所述语音信号中的目标语音帧丢失时，采用如权利要求1-18任一项所述的方法重建所述目标语音帧；输出单元，用于基于所述重建的目标语音帧输出所述语音信号。 23.一种语音处理设备，其特征在于，所述设备包括：处理器，适于实现一条或多条指令；以及，计算机可读存储介质，存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如权利要求1-20任一项所述的语音处理方法。 24.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如权利要求1-20任一项所述的语音处理方法。

专利专题