一种音频信息处理方法、装置、电子设备及存储介质

引用

摘要：

本发明提供了一种音频信息处理方法、装置、电子设备以及存储介质，方法包括：对所述语音特征向量进行处理，得到所述语音特征向量对应的客观语音质量评估损失值；基于所述客观语音质量评估损失值，对带内前向纠错编码时的第一编码比特数量进行调整，得到带内前向纠错编码时的第二编码比特数量；基于所述第二编码比特数量，对所述目标音频信息进行编码处理，得到所述目标音频信息对应的标准音频信息。由此，可以通过客观语音质量评估损失值，对带内前向纠错编码时的编码比特数量进行调整，获得更加适合的编码比特数量，提升音频信息编码质量，节省音频信息传输时的网络资源，使用户获得更好的使用体验。

专利类型：发明专利

申请/专利号：CN202110744917.2

申请日期：2021-07-01

公开/公告号：CN113192520A

公开/公告日：2021-07-30

主分类号：G10L19/00(2013.01)

申请/专利权人:腾讯科技(深圳)有限公司

发明/设计人:梁俊斌

主申请人地址:518057 广东省深圳市南山区高新区科技中一路腾讯大厦35层

专利代理机构:北京派特恩知识产权代理有限公司

代理人:王花丽%张颖玲

国别省市代码:广东;44

权利要求：

1.一种音频信息处理方法，其特征在于，所述方法包括：获取目标音频信息，并对所述目标音频信息进行解析处理，得到所述目标音频信息中所包括的语音特征向量；通过音频信息处理模型，对所述语音特征向量进行处理，得到所述语音特征向量对应的客观语音质量评估损失值；基于所述客观语音质量评估损失值，对带内前向纠错编码时的第一编码比特数量进行调整，得到带内前向纠错编码时的第二编码比特数量；基于所述第二编码比特数量，对所述目标音频信息进行编码处理，得到所述目标音频信息对应的标准音频信息。 2.根据权利要求1所述的方法，其特征在于，所述获取目标音频信息，并对所述目标音频信息进行解析处理，得到所述音频信息中所包括的语音特征向量，包括：对所述目标音频信息进行解析，获取所述目标音频信息的时序信息；根据所述目标音频信息的时序信息，对所述目标音频信息所对应的音频参数进行解析，获取与所述目标音频信息对应的语音活动检测参数；基于所述目标音频信息对应的语音活动检测参数，对所述目标音频信息进行抽取以获取所述目标音频信息对应的语音特征向量。 3.根据权利要求1所述的方法，其特征在于，所述通过音频信息处理模型，对所述语音特征向量进行处理，得到所述语音特征向量对应的客观语音质量评估损失值，包括：通过所述音频信息处理模型的第一卷积神经网络，对所述语音特征向量进行处理，得到所述语音特征向量对应的第一音频特征向量；通过所述音频信息处理模型的门控循环单元网络，对所述第一音频特征向量进行处理，得到所述语音特征向量对应的第二音频特征向量；通过所述音频信息处理模型的第二卷积神经网络，对所述第二音频特征向量进行处理，得到所述语音特征向量对应的第三音频特征向量；基于所述第三音频特征向量，确定所述语音特征向量对应的客观语音质量评估损失值。 4.根据权利要求3所述的方法，其特征在于，所述方法还包括：确定目标音频信息的使用环境；基于所述目标音频信息的使用环境，对所述音频信息处理模型的门控循环单元网络中的门控循环单元的数量进行调整；基于所述目标音频信息的使用环境，对所述音频信息处理模型的第一卷积神经网络中的卷积神经单元的数量进行调整；基于所述目标音频信息的使用环境，对所述音频信息处理模型的第二卷积神经网络中的卷积神经单元的数量进行调整。 5.根据权利要求1所述的方法，其特征在于，所述基于所述客观语音质量评估损失值，对带内前向纠错编码时的第一编码比特数量进行调整，得到带内前向纠错编码时的第二编码比特数量，包括：基于所述客观语音质量评估损失值，确定所述目标音频信息中不同语音帧所分别对应的音质权重参数；当所述音质权重参数大于等于音质权重参数阈值时，对相应语音帧对应的带内前向纠错编码时的第一编码比特数量进行增加，得到带内前向纠错编码时的第二编码比特数量。 6.根据权利要求1所述的方法，其特征在于，所述基于所述客观语音质量评估损失值，对带内前向纠错编码时的第一编码比特数量进行调整，得到带内前向纠错编码时的第二编码比特数量，包括：基于所述客观语音质量评估损失值，确定所述目标音频信息中不同语音帧所分别对应的音质权重参数；当所述音质权重参数小于音质权重参数阈值时，对相应语音帧对应的带内前向纠错编码时的第一编码比特数量进行减少，得到带内前向纠错编码时的第二编码比特数量。 7.根据权利要求1所述的方法，其特征在于，所述基于所述客观语音质量评估损失值，对带内前向纠错编码时的第一编码比特数量进行调整，得到带内前向纠错编码时的第二编码比特数量，包括：基于所述客观语音质量评估损失值，确定所述客观语音质量评估损失值与带内前向纠错编码时的编码比特数量的映射关系；基于所述客观语音质量评估损失值与带内前向纠错编码时的编码比特数量的映射关系，对所述目标音频信息中不同语音帧的带内前向纠错编码时的第一编码比特数量进行动态调整，得到带内前向纠错编码时的第二编码比特数量，以适应所述目标音频信息的使用环境。 8.根据权利要求7所述的方法，其特征在于，所述方法还包括：根据所述目标音频信息的信息来源，建立数据存储映射；响应于所建立的数据存储映射，对所述目标音频的文件格式进行调整，以实现与所述信息来源相匹配；响应于所建立的数据存储映射，为相同数据源的音频信息配置所述客观语音质量评估损失值与带内前向纠错编码时的编码比特数量的映射关系；通过所述客观语音质量评估损失值与带内前向纠错编码时的编码比特数量的映射关系，对所述目标音频信息中不同语音帧的带内前向纠错编码时的第一编码比特数量进行动态调整。 9.根据权利要求1所述的方法，其特征在于，所述方法还包括：获取第一训练样本集合，其中所述第一训练样本集合包括通过终端采集的不同音频样本；对所述第一训练样本集合进行噪声添加，以形成相应的第二训练样本集合；通过音频信息处理模型对所述第二训练样本集合进行处理，以确定所述音频信息处理模型的初始参数；响应于所述音频信息处理模型的初始参数，通过所述音频信息处理模型对所述第二训练样本集合进行处理，确定所述音频信息处理模型的更新参数；根据所述音频信息处理模型的更新参数，通过所述第二训练样本集合对所述音频信息处理模型的网络参数进行迭代更新。 10.根据权利要求9所述的方法，其特征在于，所述对所述第一训练样本集合进行噪声添加，以形成相应的第二训练样本集合，包括：确定所述音频信息处理模型的使用环境相匹配的动态噪声类型；根据所述动态噪声类型，对所述第一训练样本集合进行噪声添加，以改变所述第一训练样本集合中音频样本的固定增益、自适应增益、基音周期、线谱对参数以及语音端点检测参数，形成相应的第二训练样本集合。 11.根据权利要求9所述的方法，其特征在于，所述响应于所述音频信息处理模型的初始参数，通过所述音频信息处理模型对所述第二训练样本集合进行处理，确定所述音频信息处理模型的更新参数，包括：将所述第二训练样本集合中不同音频样本，代入所述音频信息处理模型的第一卷积神经网络、第二卷积神经网络和门控循环单元网络所分别对应的损失函数；确定所述损失函数满足相应的收敛条件时对应所述音频信息处理模型中第一卷积神经网络、第二卷积神经网络和门控循环单元网络所分别对应的参数；将所述第一卷积神经网络、第二卷积神经网络和门控循环单元网络所分别对应的参数作为所述音频信息处理模型的更新参数。 12.根据权利要求9所述的方法，其特征在于，所述根据所述音频信息处理模型的更新参数，通过所述第二训练样本集合对所述音频信息处理模型的网络参数进行迭代更新，包括：确定与所述音频信息处理模型中第一卷积神经网络、第二卷积神经网络和门控循环单元网络所分别相匹配的收敛条件；对所述第一卷积神经网络、第二卷积神经网络和门控循环单元网络所分别对应的参数进行迭代更新，直至第一卷积神经网络、第二卷积神经网络和门控循环单元网络所分别对应的损失函数满足对应的收敛条件。 13.一种音频信息处理装置，其特征在于，所述装置包括：信息传输模块，用于获取目标音频信息，并对所述目标音频信息进行解析处理，得到所述目标音频信息中所包括的语音特征向量；信息处理模块，用于通过音频信息处理模型，对所述语音特征向量进行处理，得到所述语音特征向量对应的客观语音质量评估损失值；所述信息处理模块，用于基于所述客观语音质量评估损失值，对带内前向纠错编码时的第一编码比特数量进行调整，得到带内前向纠错编码时的第二编码比特数量；所述信息处理模块，用于基于所述第二编码比特数量，对所述目标音频信息进行编码处理，得到所述目标音频信息对应的标准音频信息。 14.一种电子设备，其特征在于，所述电子设备包括：存储器，用于存储可执行指令；处理器，用于运行所述存储器存储的可执行指令时，实现权利要求1至12任一项所述的音频信息处理方法。 15.一种计算机可读存储介质，存储有可执行指令，其特征在于，所述可执行指令被处理器执行时实现权利要求1至12任一项所述的音频信息处理方法。

专利专题