基于端到端深度神经网络的音频信号处理方法及装置

引用

摘要：

本申请揭示了一种基于端到端深度神经网络的音频信号处理方法、装置、存储介质及计算机设备，该方法包括获取音频信号；对音频信号进行分帧处理，得到分帧后的时域信号；将分帧后的时域信号输入预设的第一加窗层进行处理，得到第一输出信号；将第一输出信号输入预设的第一傅里叶变换层进行计算，得到第二输出信号；将所述第二输出信号输入预设的听觉滤波层进行计算，得到已转换成听觉域的第三输出信号，其中所述第一加窗层、第一傅里叶变换层以及听觉滤波层为可训练的且作为深度神经网络的网络前端一部分，与现有技术中全连接方式的网络前端相比，其网络连接稀疏化，使得参数量、运算量大大减小。

专利类型：发明专利

申请/专利号：CN202010714620.7

申请日期：2020-07-23

公开/公告号：CN111739555A

公开/公告日：2020-10-02

主分类号：G10L25/30(2013.01)

申请/专利权人:深圳市友杰智新科技有限公司

发明/设计人:陈俊彬;王广新;太荣鹏

主申请人地址:518000 广东省深圳市南山区招商街道蛇口南海大道1079号花园城数码大厦A座402

专利代理机构:深圳市明日今典知识产权代理事务所(普通合伙)

代理人:王杰辉%曹勇

国别省市代码:广东;44

权利要求：

1.一种基于端到端深度神经网络的音频信号处理方法，其特征在于，包括：获取音频信号；对所述音频信号进行分帧处理，得到分帧后的时域信号；将所述时域信号输入预设的第一加窗层进行处理，得到第一输出信号，所述第一输出信号为增加帧与帧之间的连续性的时域信号；将所述第一输出信号输入预设的第一傅里叶变换层进行计算，得到变换成频域信号的第二输出信号；将所述第二输出信号输入预设的听觉滤波层进行计算，得到已转换成听觉域的第三输出信号，其中所述第一加窗层、第一傅里叶变换层以及听觉滤波层为可训练的且作为预设的深度神经网络的一部分。 2.如权利要求1所述的基于端到端深度神经网络的音频信号处理方法，其特征在于，所述时域信号的帧长为K，所述将所述时域信号输入预设的第一加窗层进行处理的步骤，包括：对各所述时域信号按数字自然顺序进行编号，得到各所述时域信号的序列，所述时域信号的序列为x=x(0)，x(1)，x(2)，...，x(K-1)；对所述时域信号按编号的奇偶数分别调整序号，得到偶数部分的所述时域信号序列为x1= x(0)，x(K/2)，x(2)，x(K/2+2)，...，x(K/2-2)，x(K-2)，以及奇数部分的所述时域信号序列为x2= x(1)，x(K/2+1)，x(3)，x(K/2+3)，...，x(K/2-1)，x(K-1)；将调完序号的所述奇数部分拼接于所述偶数部分之后，得到各所述时域信号的序列为x=x(0)，x(K/2)，x(2)，x(K/2+2)，...，x(K/2-2)，x(K-2)，x(1)，x(K/2+1)，x(3)，x(K/2+3)，...，x(K/2-1)，x(K-1)，其中，K=2N，N为正整数；对调序后的时域信号采用如下公式做加窗处理：x= x▫ W0，x为调完序号后的时域信号， W0为窗系数，▫为哈达玛积符号。 3.如权利要求1所述的基于端到端深度神经网络的音频信号处理方法，其特征在于，所述第一傅里叶变换层包括N层网络运算层，其中，，K为所述第二输出信号的频点数，所述第二输出信号的频点数与所述时域信号的帧长一致。 4.如权利要求3所述的基于端到端深度神经网络的音频信号处理方法，其特征在于，所述将所述第一输出信号输入预设的第一傅里叶变换层进行计算，得到变换成频域信号的第二输出信号的步骤，包括：将所述第一输出信号输入到所述第一傅里叶变换层中的第一预设公式进行计算，得到所述第二输出信号；其中，所述第一预设公式为：X= WN·WN-1…W1·x，X表示所述第二输出信号， WN为所述第一傅里叶变换层中第N层网络运算层的权值矩阵，x为经过调序及加窗处理后的第一输出信号。 5.如权利要求1所述的基于端到端深度神经网络的音频信号处理方法，其特征在于，所述听觉滤波层包括多个节点，每一所述节点分别对应一个频率区间，所述将所述第二输出信号输入预设的听觉滤波层进行计算，得到已转换成听觉域的第三输出信号的步骤之前，包括：获取各所述第二输出信号的信号频率以及各所述节点对应的频率区间；判断出所述信号频率所属的频率区间；依据所述判断结果将所述第二输出信号输入至与所述频率区间对应的节点。 6.如权利要求4所述的基于端到端深度神经网络的音频信号处理方法，其特征在于，所述听觉滤波层包括B个节点，所述将所述第二输出信号输入预设的听觉滤波层进行计算的步骤，包括：将所述第二输出信号输入所述听觉滤波层中第二预设公式进行计算，得到所述第三输出信号；其中，所述第二预设公式为：，，X(k)为所述第二输出信号的计算公式，为第一傅里叶变换层输出层第k个节点连接到听觉滤波层第m个节点上的权值。 7.如权利要求1所述的基于端到端深度神经网络的音频信号处理方法，其特征在于，所述音频信号为混合语音的音频信号，所述混合语音为多个纯净语音混合而得到的语音；所述听觉滤波层之后依次连接有U-net神经网络层、第二傅里叶变换层以及第二加窗层；所述将所述第一输出信号输入预设的第一傅里叶变换层进行计算，得到变换成频域信号的第二输出信号的步骤之后，还包括：分别通过预设的功率谱公式以及相位谱公式求得所述第二输出信号的功率谱以及相位谱，并根据预设的公式求得所述第三输出信号的功率谱；将所述第三输出信号的功率谱输入到所述U-net神经网络层中，依据第二输出信号的功率谱计算得到多个纯净语音的功率谱；将各所述纯净语音的功率谱与所述第二输出信号的相位谱进行计算得到各所述纯净语音的频谱数据；把各不同所述纯净语音的频谱输入所述第二傅里叶变换层，通过所述第二傅里叶变换层对输入数据的虚部求相反数得到所述第二傅里叶变换层的输出数据，并所述第二傅里叶变换层的输出数据输入所述第二加窗层，得到各所述纯净语音的时域数据。 8.一种基于端到端深度神经网络的音频信号处理装置，其特征在于，包括：获取音频单元，用于获取音频信号；分帧处理单元，用于对所述音频信号进行分帧处理，得到时域信号；加窗处理单元，用于将所述时域信号输入预设的第一加窗层进行处理，得到第一输出信号，所述第一输出信号为通过所述第一加窗层处理后已增加帧与帧之间的连续性的时域信号；变换处理单元，用于将所述第一输出信号输入预设的第一傅里叶变换层进行计算，得到变换成频域信号的第二输出信号；滤波处理单元，用于将所述第二输出信号输入预设的听觉滤波层进行计算，得到已转换成听觉域的第三输出信号，其中所述第一加窗层、第一傅里叶变换层以及听觉滤波层为可训练的且作为深度神经网络的一部分。 9.一种存储介质，其特征在于，其为计算机可读的存储介质，其上存储有计算机程序，所述计算机程序被执行时实现如权利要求1～7任一项所述的基于端到端深度神经网络的音频信号处理方法。 10.一种计算机设备，其特征在于，其包括处理器、存储器及存储于所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被执行时实现如权利要求1～7任一项所述的基于端到端深度神经网络的音频信号处理方法。

专利专题