一种发声方式判别方法及系统

引用

摘要：

本发明属于声音识别技术领域，具体为一种发声方式判别方法及系统。本发明方法包括：获取各发声方式对应的音频数据；采用滑窗方式在各音频数据上连续截取设定长度的音频作为样本数据，相邻样本数据有设定量的重叠；对各样本数据进行降采样、分帧加窗、傅立叶变换以及梅尔滤波，得到各样本数据的梅尔谱；对样本数据的梅尔谱进行标准化，以样本数据标准化后的梅尔谱为输入，以Adam为优化函数，以交叉熵为损失函数训练神经网络；采用训练好的神经网络对待识别音频数据进行发声方式的判别。本发明简化了发声方式的判别方法，降低了成本。本发明在相关源任务即歌声技巧分类的任务上做了预训练，加快了神经网络的训练速度。

专利类型：发明专利

申请/专利号：CN202011044151.9

申请日期：2020-09-28

公开/公告号：CN112201226A

公开/公告日：2021-01-08

主分类号：G10L15/02(2006.01)

申请/专利权人:复旦大学

发明/设计人:李伟;江益靓;孙校珩;钱家乐

主申请人地址:200433 上海市杨浦区邯郸路220号

专利代理机构:上海正旦专利代理有限公司

代理人:陆飞%陆尤

国别省市代码:上海;31

权利要求：

1.一种发声方式判别方法，其特征在于，具体步骤为： (1)获取各发声方式对应的音频数据，所述发声方式包括呼气式发声、自然式发声、抖动式发声以及挤压式发声； (2)采用滑窗方式在各所述音频数据上连续截取设定长度的音频作为样本数据，相邻所述样本数据有设定量的重叠； (3)对各所述样本数据进行降采样、分帧加窗、傅立叶变换，通过梅尔滤波器组，得到各样本数据的梅尔谱； (4)基于训练集的梅尔谱均值与方差，对各样本数据的梅尔谱进行标准化；其中，所述训练集由各样本数据的梅尔谱组成； (5)以标准化后的各样本数据的梅尔谱作为输入，以Adam为优化函数，以交叉熵为损失函数训练一个卷积神经网络，得到训练好的神经网络模型； (6)采用训练好的神经网络模型对待识别音频数据进行发声方式的判别。 2.根据权利要求1所述的发声方式判别方法，其特征在于，步骤(4)所述基于训练集的梅尔谱均值与方差，对降采样后的各样本数据进行标准化，具体包括：根据对降采样后的各样本数据进行标准化，其中，Sorigin为样本数据标准化前的梅尔谱，Sstandard为样本数据标准化后的梅尔谱，s为训练集中梅尔谱的方差，μ为训练集中梅尔谱的均值。 3.根据权利要求2所述的发声方式判别方法，其特征在于，步骤(4)中所述神经网络包括卷积模块和分类模块；其中，所述卷积模块包括四个卷积层、最大池化层和丢弃层，所述分类模块包括三个全连接层。 4.根据权利要求3所述的发声方式判别方法，其特征在于，所述神经网络的结构设计如下：对于4个卷积层，每个卷积层都进行补0操作，使得输入特征图与输出特征图大小一致；其中，第一个卷积层的滤波器的形状为3*3*16，三个数字分别对应于频率、时间、信道；第二个卷积层的滤波器在频率、时间上的尺度不变，通道加深一倍，即32个通道；第三个卷积层的滤波器与第二个卷积层一致，第四个卷积层滤波器的个数增加一倍；每个卷积操作后，都会进行批标准化操作，再通过修正线性单元，之后再经过最大池化与丢弃层，其目的是进行下采样，去除冗余信息，增加网络的泛化性；以上卷积层模块从输入梅尔谱中提取出发声方式的高层特征，再经过三个全连接层进行分类，最后一层加上Softmax函数，最终的输出为四种发声方式的概率，其中概率最大的类别为最终的判断类别。 5.根据权利要求4所述的发声方式判别方法，其特征在于，采用歌声技巧分类模型中前三个卷积层的权重参数对所述神经网络中的前三个卷积层的权重参数进行初始化，所述歌声技巧分类模型采用卷积神经网络的架构，包括五个卷积层和四个全连接层。 6.根据权利要求3所述的发声方式判别方法，其特征在于，神经网络训练中批处理的每批数据大小为64、72、80、…、或128个样本。 7.根据权利要求3所述的发声方式判别方法，其特征在于，神经网络训练中的学习率为0.001-0.002；神经网络训练中丢弃层的随机丢弃概率为0.25-0.5。 8.根据权利要求3所述的发声方式判别方法，其特征在于，神经网络训练中的训练轮数为200-300。 9.一种相应于权利要求1-8之一所述方法的发声方式判别系统，其特征在于，包括：音频数据获取模块，用于获取各发声方式对应的音频数据，所述发声方式包括呼气式发声、自然式发声、抖动式发声以及挤压式发声；样本数据截取模块，用于采用滑窗方式在各所述音频数据上连续截取设定长度的音频作为样本数据，相邻所述样本数据有设定量的重叠；梅尔谱计算模块，用于对各所述样本数据进行降采样、分帧加窗、傅立叶变换，通过梅尔滤波器组，得到各样本数据的梅尔谱；标准化模块，用于基于训练集的梅尔谱均值与方差，对各样本数据的梅尔谱进行标准化，其中，所述训练集由各样本数据的梅尔谱组成；具体包括：标准化单元，用于根据对降采样后的各样本数据进行标准化，其中，Sorigin为样本数据标准化前的梅尔谱，Sstandard为样本数据标准化后的梅尔谱，s为训练集中梅尔谱的方差，μ为训练集中梅尔谱的均值；神经网络训练模块，用于以标准化后的各样本数据的梅尔谱作为输入，以Adam为优化函数，以交叉熵为损失函数训练卷积神经网络，得到训练好的神经网络模型；判别模块，用于采用训练好的神经网络模型对待识别音频数据进行发声方式的判别。

专利专题