用于音频丢包修复的神经网络训练方法、装置和系统

引用

摘要：

本发明公开了一种用于音频丢包修复的神经网络训练方法、装置和系统，其中，所述训练方法包括：获取待学习的语音信号样本数据；在每组N帧语音信号帧中剔除第一预设位置的语音信号帧得到第一输入样本；在每组N帧语音信号帧中剔除第二预设位置的语音信号帧得到第二输入样本；将第一输入样本和第二输入样本分别输入至第一修复模型和第二修复模型，以分别训练第一修复模型和第二修复模型。本发明实施例的方案训练了不同的修复模型，使得在语音数据修复过程中能够适应选择修复模型，对丢失语音信号帧的修复更有针对性，继而，提高修复准确率。

专利类型：发明专利

申请/专利号：CN202010200410.6

申请日期：2020-03-20

公开/公告号：CN111883172A

公开/公告日：2020-11-03

主分类号：G10L25/30(2013.01)

申请/专利权人:珠海市杰理科技股份有限公司

发明/设计人:肖全之;闫玉凤;黄荣均;方桂萍

主申请人地址:519085 广东省珠海市吉大石花西路107号9栋综合楼(1-4层)

专利代理机构:深圳市君之泉知识产权代理有限公司

代理人:程苗

国别省市代码:广东;44

权利要求：

1.一种用于音频丢包修复的神经网络训练方法，其特征在于，所述神经网络的模型包括第一修复模型和第二修复模型，所述神经网络训练方法包括：步骤S201，获取待学习的语音信号样本数据，所述语音信号样本数据以N帧语音信号帧为一组，其中，N为大于或等于5的整数，所述语音信号帧为包含语音信号的音频数据帧；步骤S203，在每组所述N帧语音信号帧中剔除第一预设位置的语音信号帧得到第一输入样本；步骤S205，在每组所述N帧语音信号帧中剔除第二预设位置的语音信号帧得到第二输入样本，所述第一预设位置与所述第二预设位置的位置不同；及步骤S207，将所述第一输入样本和所述第二输入样本分别输入至所述第一修复模型和所述第二修复模型，以分别训练所述第一修复模型和所述第二修复模型，所述第一修复模型用于修复处于第一预设位置的语音信号帧，所述第二修复模型用于修复处于第二预设位置的语音信号帧；其中，在音频数据丢包修复过程中，根据丢帧的位置信息选择所述第一修复模型和所述第二修复模型，以对丢失的语音信号帧进行修复。 2.如权利要求1所述的神经网络训练方法，其特征在于，在所述步骤S207中，分别训练所述第一修复模型和所述第二修复模型包括：通过反复迭代训练所述第一修复模型和所述第二修复模型。 3.如权利要求2所述的神经网络训练方法，其特征在于，反复迭代训练所述第一修复模型包括：在第i次迭代后得到第i个语音信号帧，其中，i为正整数；判断所述第i个语音信号帧与被剔除的第一预设位置的语音信号帧之间的第一误差是否在预设范围内；如果所述第一误差在预设范围内，则输出第i次迭代所得到的模型参数，以固化所述第一修复模型；和/或，反复迭代训练所述第二修复模型包括：在第j次迭代后得到第j个语音信号帧，其中，j为正整数；判断所述第j个语音信号帧与被剔除的第二预设位置的语音信号帧之间的第二误差是否在预设范围内；如果所述第二误差在预设范围内，则输出第j次迭代所得到的模型参数，以固化所述第二修复模型。 4.如权利要求1-3任意一项所述的神经网络训练方法，其特征在于，所述步骤S201包括：通过预设长度的观察窗对所述语音信号样本数据以N帧语音信号帧为一组；其中，所述观察窗采用迭代替换的滑动方式在所述语音信号样本数据中滑动；在所述观察窗内执行所述步骤S203、所述步骤S205和所述步骤S207。 5.如权利要求1-4任意一项所述的神经网络训练方法，其特征在于，所述第一预设位置为处于所述观察窗内且未包含处于所述观察窗内的最后一帧；通过处于所述观察窗内的所述第一预设位置之前和之后的语音信号帧训练所述第一修复模型。 6.如权利要求5所述的神经网络训练方法，其特征在于，所述第一预设位置为非处于所述观察窗内的第一帧。 7.如权利要求4所述的神经网络训练方法，其特征在于，所述第二预设位置包括处于所述观察窗内的最后一帧；通过处于所述观察窗内的所述第二预设位置之前的语音信号帧训练所述第二修复模型。 8.一种用于音频丢包修复的神经网络结构，其特征在于，包括：第一修复模型，用于修复第一预设位置的语音信号帧；第二修复模型，用于修复第二预设位置的语音信号帧，所述第一预设位置与所述第二预设位置的位置不同；选择模块，用于获取待修复的语音信号数据，所述语音信号数据包括N帧语音信号，其中，N为大于或等于5的整数，所述语音信号帧为包含语音信号的音频数据帧；所述选择模块在确定所述待修复的语音信号数据中丢失第一预设位置的语音信号帧后，将所述待修复的语音信号数据输入至所述第一修复模型，以修复所述第一预设位置的语音信号帧；所述选择模块在确定所述待修复的语音信号数据中丢失第二预设位置的语音信号帧后，将所述待修复的语音信号数据输入至所述第二修复模型，以修复所述第二预设位置的语音信号帧。 9.一种用于音频丢包修复的神经网络训练装置，其特征在于，所述神经网络的模型包括第一修复模型和第二修复模型，其中，在音频数据丢包修复过程中，根据丢帧的位置信息选择所述第一修复模型和所述第二修复模型，以对丢失的语音信号帧进行修复；所述神经网络训练装置包括：样本获取模块，用于获取待学习的语音信号样本数据，所述语音信号样本数据以N帧语音信号帧为一组，其中，N为大于或等于5的整数，所述语音信号帧为包含语音信号的音频数据帧；第一剔除模块，用于在每组所述N帧语音信号帧中剔除第一预设位置的语音信号帧得到第一输入样本；第二剔除模块，用于在每组所述N帧语音信号帧中剔除第二预设位置的语音信号帧得到第二输入样本，所述第一预设位置与所述第二预设位置的位置不同；及训练模块，用于将所述第一输入样本和所述第二输入样本分别输入至所述第一修复模型和所述第二修复模型，以分别训练所述第一修复模型和所述第二修复模型，所述第一修复模型用于修复处于第一预设位置的语音信号帧，所述第二修复模型用于修复处于第二预设位置的语音信号帧。 10.如权利要求9所述的神经网络训练装置，其特征在于，所述训练模块用于分别训练所述第一修复模型和所述第二修复模型包括：通过反复迭代训练所述第一修复模型和所述第二修复模型。 11.如权利要求10所述的神经网络训练装置，其特征在于，所述训练模块包括第一训练单元和/或第二训练单元，其中：所述第一训练单元用于反复迭代训练所述第一修复模型，包括：在第i次迭代后得到第i个语音信号帧，其中，i为正整数；判断所述第i个语音信号帧与被剔除的第一预设位置的语音信号帧之间的第一误差是否在预设范围内；如果所述第一误差在预设范围内，则输出第i次迭代所得到的模型参数，以固化所述第一修复模型；第二训练单元用于反复迭代训练所述第二修复模型，包括：在第j次迭代后得到第j个语音信号帧，其中，j为正整数；判断所述第j个语音信号帧与被剔除的第二预设位置的语音信号帧之间的第二误差是否在预设范围内；如果所述第二误差在预设范围内，则输出第j次迭代所得到的模型参数，以固化所述第二修复模型。 12.如权利要求9-11任意一项所述的神经网络训练装置，其特征在于，所述样本获取模块用于通过预设长度的观察窗对所述语音信号样本数据以N帧语音信号帧为一组；其中，所述观察窗采用迭代替换的滑动方式在所述语音信号样本数据中滑动；在所述观察窗内运行所述第一剔除模块、所述第二剔除模块和所述训练模块。 13.如权利要求12所述的神经网络训练装置，其特征在于，所述第一预设位置为处于所述观察窗内且未包含处于所述观察窗内的最后一帧；所述训练模块用于通过处于所述观察窗内的所述第一预设位置之前和之后的语音信号帧训练所述第一修复模型。 14.如权利要求13所述的神经网络训练装置，其特征在于，所述第一预设位置为非处于所述观察窗内的第一帧。 15.如权利要求12所述的神经网络训练装置，其特征在于，所述第二预设位置包括处于所述观察窗内的最后一帧；所述训练模块用于通过处于所述观察窗内的所述第一预设位置之前的语音信号帧训练所述第二修复模型。 16.一种用于音频丢包修复的神经网络训练系统，其特征在于，包括：语音信号获取装置，用于获取待学习的语音信号样本数据；存储器，用于存储程序；处理器，接收所述待学习的语音信号样本数据，用于执行所述程序以实现如权利要求1-7任意一项所述方法。 17.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，存储介质中存储的计算机程序用于被执行实现如权利要求1-7任意一项所述的方法。 18.一种音频设备的芯片，其上具有集成电路，其特征在于，所述集成电路被设计成用于实现如权利要求1-7任意一项所述的方法。 19.一种服务器，其特征在于，其上存储有计算机程序，其特征在于，存储介质中存储的计算机程序用于被执行实现如权利要求1-7任意一项所述的方法。 20.一种平台服务器，其特征在于，包括：请求接收模块，用于接收数据请求；数据下发模块，用于根据所述数据请求向用户提供计算机程序和/或计算机程序链接，所述计算机程序用于被执行实现如权利要求1-7任意一项所述的方法。

专利专题