基于深度学习的声音质量处理系统及其方法

引用

摘要：

本发明涉及声音处理方法技术领域，尤其涉及一种基于深度学习的声音质量处理系统及其方法，包括音源采样输入模块、深度学习重构网络和音源处理输出模块。本发明的发明目的在于提供一种基于深度学习的声音质量处理系统及其方法，采用本发明提供的技术方案解决了目前基于人工填充或插值数据的方法进行声音重构的方案，存在无法理解声音特征本质的技术问题。

专利类型：发明专利

申请/专利号：CN202010254598.2

申请日期：2020-04-02

公开/公告号：CN111508509A

公开/公告日：2020-08-07

主分类号：G10L19/02(2013.01)

申请/专利权人:广东九联科技股份有限公司

发明/设计人:吴开钢;詹启军;林榕;郑广平

主申请人地址:516025 广东省惠州市惠澳大道惠南高新科技产业园惠泰路5号

专利代理机构:惠州市华专知识产权代理事务所(普通合伙)

代理人:彭俊垣

国别省市代码:广东;44

权利要求：

1.一种基于深度学习的声音质量处理系统，其特征在于：包括音源采样输入模块、深度学习重构网络和音源处理输出模块；所述音源采样输入模块，用于对无损音频样本和有损音频样本进行采样，获得原始裸数据；所述深度学习重构网络，提取所述原始裸数据的特征后进行分类，分别对每一类特征进行频谱重构，再进行时域还原，得到时域波形数据；所述音源处理输出模块，输出将所述深度学习重构网络得到的时域波形数据。 2.根据权利要求1所述的声音质量处理系统，其特征在于：在所述音源采样输入模块中，所述有损音频样本由所述无损音频样本通过短时傅立叶变换得到。 3.根据权利要求2所述的声音质量处理系统，其特征在于：所述深度学习重构网络包括输入层和输出层，所述原始裸数据为所述输入层的输入，所述原始裸数据的特征为所述输出层的目标。 4.根据权利要求3所述的声音质量处理系统，其特征在于：所述深度学习重构网络由至少三个LSTM网络、若干个Dropout层、至少两个Dence层和一Softmax分类器依次连接组成，在相邻的两个LSTM网络以及相邻的两个Dence层之间均连接有一Dropout层。 5.一种基于权利要求4所述的声音质量处理系统的处理方法，其特征在于：包括以下步骤： S100、对无损音频样本和有损音频样本进行采样，获得原始裸数据； S200、提取所述原始裸数据的特征后进行分类； S300、分别对每一类特征进行频谱重构； S400、对频谱重构的特征进行时域还原，得到时域波形数据并输出。 6.根据权利要求5所述的处理方法，其特征在于：在步骤S200中，在对特征进行分类之前，对特征进行记忆处理，包括： LSTM网络提取原始裸数据的特征后；提取的特征在Dropout层每个隐藏层各单元之间的重置门和更新门之间传递；传递过程控制之前声音特征和当前声音特征的记忆和遗忘程度。 7.根据权利要求6所述的处理方法，其特征在于：所述重置门和更新门为遗忘门、输入门、候选门和输出门的变种可控门。 8.根据权利要求7所述的处理方法，其特征在于：在步骤S200中，完成记忆处理的特征在Dence层跟进声音特征的组合进行分类。 9.根据权利要求8所述的处理方法，其特征在于：在步骤S300中，由Softmax分类器分别对每一类特征进行频谱重构计算。 10.根据权利要求9所述的处理方法，其特征在于：在LSTM网络中，部分自身输出灌入音频输入帧中。

专利专题