基于神经网络的音频丢包修复方法、设备和系统

引用

摘要：

本发明公开了一种基于神经网络的音频丢包修复方法、设备和系统，其中，所述音频丢包修复方法包括：获取音频数据包，音频数据包包括若干帧音频数据帧，若干帧音频数据帧中至少包含多个语音信号帧；确定丢失的语音信号帧在若干帧音频数据帧中所处的位置得到丢帧的位置信息；所处的位置包括第一预设位置或第二预设位置；根据丢帧的位置信息选择用于修复丢帧情况的神经网络模型，神经网络模型包括第一修复模型和第二修复模型；将若干帧音频数据帧送入选择的神经网络模型，以对丢失的语音信号帧进行修复。能够适应选择修复模型，对丢失语音信号帧的修复更有针对性，继而，提高修复准确率。

专利类型：发明专利

申请/专利号：CN202010200811.1

申请日期：2020-03-20

公开/公告号：CN111883173A

公开/公告日：2020-11-03

主分类号：G10L25/30(2013.01)

申请/专利权人:珠海市杰理科技股份有限公司

发明/设计人:肖全之;闫玉凤;黄荣均;方桂萍

主申请人地址:519085 广东省珠海市吉大石花西路107号9栋综合楼(1-4层)

专利代理机构:深圳市君之泉知识产权代理有限公司

代理人:程苗

国别省市代码:广东;44

权利要求：

1.一种基于神经网络的音频数据丢包修复方法，其特征在于，包括：步骤S101，获取音频数据包，所述音频数据包包括若干帧音频数据帧，所述若干帧音频数据帧中至少包含多个语音信号帧，所述语音信号帧为包含语音信号的音频数据帧；步骤S103，当所述若干帧音频数据帧中存在丢失语音信号帧的丢帧情况后，确定丢失的语音信号帧在所述若干帧音频数据帧中所处的位置得到丢帧的位置信息；所述所处的位置包括第一预设位置或第二预设位置；步骤S105，根据所述丢帧的位置信息选择用于修复丢帧情况的神经网络模型，所述神经网络模型包括第一修复模型和第二修复模型，其中，所述第一修复模型用于修复处于第一预设位置的语音信号帧，所述第二修复模型用于修复处于第二预设位置的语音信号帧；及步骤S107，将所述若干帧音频数据帧送入选择的神经网络模型，以对丢失的语音信号帧进行修复。 2.如权利要求1所述的音频数据丢包修复方法，其特征在于，所述若干帧音频数据帧中还包括非语音信号帧；在所述步骤S101和步骤S103之间还包括：步骤S102，按预设算法区分所述若干帧音频数据帧中的语音信号帧和非语音信号帧；在所述步骤S103中，所述丢帧的位置信息为丢失的语音信号帧在语音信号帧组中所处的位置，所述语音信号组包括N帧语音信号帧，其中，N为大于或等于5的整数。 3.如权利要求2所述的音频数据丢包修复方法，其特征在于，所述步骤S103包括：步骤S1031，通过观察窗在所述多个语音信号帧中顺序滑动，以对所述多个语音信号帧进行N帧一组的分组；步骤S1032，针对处于所述观察窗内的语音信号帧，确定是否存在丢帧的情况；及步骤S1033，当处于所述观察窗内的语音信号帧存在丢帧的情况后，确定丢失的语音信号帧在所述观察窗内的位置，以得到所述丢帧的位置信息；所述步骤S107包括：在所述观察窗内对丢失的语音信号帧进行修复。 4.如权利要求3所述的音频数据丢包修复方法，其特征在于，在所述步骤S107之后，还包括：将恢复的语音信号帧更新至所述观察窗内对应的丢帧位置帧。 5.如权利要求3所述的音频数据丢包修复方法，其特征在于，在所述步骤S1031中，采用迭代替换的滑动方式滑动所述观察窗，以使处于所述观察窗内的前K帧语音信号帧滑出所述观察窗，处于所述观察窗外的后K帧语音信号帧滑入所述观察窗内，其中，所述N为大于或等于1的整数。 6.如权利要求5所述的音频数据丢包修复方法，其特征在于，所述K为1。 7.如权利要求3-6任意一项所述的音频数据丢包修复方法，其特征在于，所述步骤S1033包括：确定丢失的语音信号帧在所述观察窗内的位置未包含处于所述观察窗内的最后一帧，并作为所述第一预设位置；所述步骤S105包括：将处于所述观察窗内的语音信号帧送入所述第一修复模型，以修复丢失的语音信号帧，其中，所述第一修复模型的输入数据中包括处于所述观察窗内的最后一帧。 8.如权利要求3-7任意一项所述的音频数据丢包修复方法，其特征在于，所述步骤S1033包括：确定丢失的语音信号帧至少为2帧，所述丢帧的位置为处于所述观察窗内的最后一帧和处于所述观察窗内的其它位置帧，并作为所述第二预设位置；所述步骤S105包括：将处于所述观察窗内的、所述其它位置帧之前的语音信号帧送入所述第二修复模型，以修复位于所述其它位置帧的语音信号帧，其中，所述第二修复模型的输入数据为处于所述观察窗内的、所述其它位置帧之前的语音信号帧，且未包含处于所述观察窗内的最后一帧。 9.如权利要求2-6任意一项所述的音频数据丢包修复方法，其特征在于，在所述步骤S102之后，还包括：对所述非语音信号帧的音频信号进行淡化包络处理。 10.一种基于神经网络的音频数据丢包修复装置，其特征在于，包括：数据获取模块，用于获取音频数据包，所述音频数据包包括若干帧音频数据帧，所述若干帧音频数据帧中至少包含多个语音信号帧，所述语音信号帧为包含语音信号的音频数据帧；位置确定模块，用于当所述若干帧音频数据帧中存在丢失语音信号帧的丢帧情况后，确定丢失的语音信号帧在所述若干帧音频数据帧中所处的位置得到丢帧的位置信息；所述所处的位置包括第一预设位置或第二预设位置；模型选择模块，用于根据所述丢帧的位置信息选择用于修复丢帧情况的神经网络模型，所述神经网络模型包括第一修复模型和第二修复模型，其中，所述第一修复模型用于修复处于第一预设位置的语音信号帧，所述第二修复模型用于修复处于第二预设位置的语音信号帧；及数据修复模块，用于将所述若干帧音频数据帧送入选择的神经网络模型，以对丢失的语音信号帧进行修复。 11.如权利要求10所述的音频数据丢包修复装置，其特征在于，所述若干帧音频数据帧中还包括非语音信号帧；还包括：信号区分模块，用于按预设算法区分所述若干帧音频数据帧中的语音信号帧和非语音信号帧；所述丢帧的位置信息为丢失的语音信号帧在语音信号帧组中所处的位置，所述语音信号组包括N帧语音信号帧，其中，N为大于或等于5的整数。 12.如权利要求11所述的音频数据丢包修复装置，其特征在于，所述位置确定模块包括：滑窗分组单元，用于通过观察窗在所述多个语音信号帧中顺序滑动，以对所述多个语音信号帧进行N帧一组的分组；丢帧确定单元，用于针对处于所述观察窗内的语音信号帧，确定是否存在丢帧的情况；及位置获取单元，用于当处于所述观察窗内的语音信号帧存在丢帧的情况后，确定丢失的语音信号帧在所述观察窗内的位置，以得到所述丢帧的位置信息；所述数据修复模块包括：在所述观察窗内对丢失的语音信号帧进行修复。 13.如权利要求12所述的音频数据丢包修复装置，其特征在于，还包括：数据更新模块，用于将恢复的语音信号帧更新至所述观察窗内对应的丢帧位置帧。 14.如权利要求12所述的音频数据丢包修复装置，其特征在于，所述滑窗分组单元采用迭代替换的滑动方式滑动所述观察窗，以使处于所述观察窗内的前K帧语音信号帧滑出所述观察窗，处于所述观察窗外的后K帧语音信号帧滑入所述观察窗内，其中，所述N为大于或等于1的整数。 15.如权利要求14所述的音频数据丢包修复装置，其特征在于，所述K为1。 16.如权利要求12-15任意一项所述的音频数据丢包修复装置，其特征在于，所述位置获取单元包括：确定丢失的语音信号帧在所述观察窗内的位置未包含处于所述观察窗内的最后一帧，并作为所述第一预设位置；所述模型选择模块包括：将处于所述观察窗内的语音信号帧送入所述第一修复模型，以修复丢失的语音信号帧，其中，所述第一修复模型的输入数据中包括处于所述观察窗内的最后一帧。 17.如权利要求12-15任意一项所述的音频数据丢包修复装置，其特征在于，所述位置获取单元包括：确定丢失的语音信号帧至少为2帧，所述丢帧的位置为处于所述观察窗内的最后一帧和处于所述观察窗内的其它位置帧，并作为所述第二预设位置；所述模型选择模块包括：将处于所述观察窗内的、所述其它位置帧之前的语音信号帧送入所述第二修复模型，以修复位于所述其它位置帧的语音信号帧，其中，所述第二修复模型的输入数据为处于所述观察窗内的、所述其它位置帧之前的语音信号帧，且未包含处于所述观察窗内的最后一帧。 18.如权利要求11-15任意一项所述的音频数据丢包修复装置，其特征在于，还包括：淡化包络模块，用于对所述非语音信号帧的音频信号进行淡化包络处理。 19.一种音频设备，其特征在于，包括：处理器，用于实现如权利要求1-9任意一项所述的方法。 20.如权利要求19所述的音频设备，其特征在于，所述音频设备为具有音频播放功能的耳机、移动终端或智能穿戴设备。 21.一种音频信号交互系统，其特征在于，包括：第一设备和第二设备；所述第一设备将音频数据包发送给所述第二设备；所述第二设备用于实现如权利要求1-9任意一项所述的方法。 22.如权利要求21所述的音频信号交互系统，其特征在于，所述第一设备为移动终端，所述第二设备为耳机。 23.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，存储介质中存储的计算机程序用于被执行实现如权利要求1-9任意一项所述的方法。 24.一种音频设备的芯片，其上具有集成电路，其特征在于，所述集成电路被设计成用于实现如权利要求1-9任意一项所述的方法。

专利专题