一种音频场景分类方法、装置、电子设备和存储介质

引用

摘要：

本公开关于一种音频场景分类方法、装置、电子设备和存储介质获取音频信息，对音频信息进行声学特征提取，得到第一声学特征信息和第二声学特征信息，并将第一声学特征信息输入到音频场景特征提取模型中进行场景特征提取，得到场景特征信息，将第二声学特征信息输入到声学场景分割模型中进行声学场景分析，得到音频场景信息。将场景特征信息和音频场景信息输入到注意力模型中进行注意力学习，得到场景特征加权信息，再将场景特征加权信息输入到场景分类网络中进行分类，得到场景分类结果。该方法可以获取音频信息中有区分性的音频片段，从而提高音频场景分类的准确性和有效性。

专利类型：发明专利

申请/专利号：CN202110304711.8

申请日期：2021-03-23

公开/公告号：CN112700794A

公开/公告日：2021-04-23

主分类号：G10L25/51(2013.01)

申请/专利权人:北京达佳互联信息技术有限公司

发明/设计人:白雪

主申请人地址:100085 北京市海淀区上地西路6号1幢1层101D1-7

专利代理机构:广州三环专利商标代理有限公司

代理人:郝传鑫%贾允

国别省市代码:北京;11

权利要求：

1.一种音频场景分类方法，其特征在于，所述方法包括：获取待分类的音频信息；对所述音频信息进行声学特征提取，得到第一声学特征信息和第二声学特征信息，所述第一声学特征信息表征所述音频信息的频谱信息，所述第二声学特征信息表征所述音频信息的频谱包络信息；将所述第一声学特征信息输入到音频场景特征提取模型中进行场景特征提取，得到场景特征信息；将所述第二声学特征信息输入到声学场景分割模型中进行声学场景分析，得到音频场景信息，所述音频场景信息表征所述音频信息中的声音事件单元在不同的声学场景中的重要程度；将所述场景特征信息和所述音频场景信息输入到注意力模型中进行注意力学习，得到场景特征加权信息；将所述场景特征加权信息输入到场景分类网络中进行场景分类，得到音频场景分类结果。 2.根据权利要求1所述的音频场景分类方法，其特征在于，所述声学场景分割模型包括声音事件获取层和声学场景分类层，所述将所述第二声学特征信息输入到声学场景分割模型中进行声学场景分析，得到音频场景信息包括：在所述声音事件获取层中，对所述第二声学特征信息进行分割，得到声音事件单元序列；在所述声学场景分类层中，根据预设的声学场景集，确定所述声音事件单元序列中每个声音事件单元对应的第一频率和第二频率，所述第一频率表征所述每个声音事件单元在每个声学场景中出现的频率，所述第二频率表征所述每个声音事件单元在所述声学场景集中出现的频率；在所述声学场景分类层中，根据所述第一频率和所述第二频率，确定所述音频场景信息。 3.根据权利要求1所述的音频场景分类方法，其特征在于，所述场景特征信息包括多个场景特征信息，所述注意力模型包括预处理网络、第一注意力网络和第二注意力网络，所述将所述场景特征信息和所述音频场景信息输入到注意力模型中进行注意力学习，得到场景特征加权信息包括：在所述预处理网络中，对所述多个场景特征信息进行均值池化，得到多个目标特征信息；在所述预处理网络中，对所述多个目标特征信息进行均值处理，得到均值特征信息；在所述第一注意力网络中，根据所述均值特征信息和所述音频场景信息，确定所述音频场景信息对应的场景加权信息；在所述第二注意力网络中，根据所述场景加权信息和所述目标特征信息，确定所述目标特征信息对应的场景特征加权信息。 4.根据权利要求3所述的音频场景分类方法，其特征在于，所述音频场景信息包括多个音频场景信息，所述第一注意力网络包括第一相似度计算层、第一权重分布计算层和场景信息加权层，所述在所述第一注意力网络中，根据所述均值特征信息和所述音频场景信息，对所述音频场景信息的权重进行确定，得到场景加权信息包括：在所述第一相似度计算层中，计算所述均值特征信息与每个音频场景信息间的第一相似度；在所述第一权重分布计算层中，根据所述第一相似度，确定所述音频场景信息对应的第一权重分布；在所述场景信息加权层中，根据所述第一权重分布，对每个音频场景信息进行加权平均，得到场景加权信息。 5.根据权利要求3所述的音频场景分类方法，其特征在于，所述第二注意力网络包括第二相似度计算层、第二权重分布计算层和特征信息加权层，所述在所述第二注意力网络中，根据所述场景加权信息和所述目标特征信息，对所述目标特征信息的权重进行确定，得到场景特征加权信息包括：在所述第二相似度计算层中，确定所述场景加权信息与每个目标特征信息间的第二相似度；在所述第二权重分布计算层中，根据所述第二相似度，确定所述目标特征信息对应的第二权重分布；在所述特征信息加权层中，根据所述第二权重分布，对每个目标特征信息进行加权平均，得到场景特征加权信息。 6.根据权利要求1所述的音频场景分类方法，其特征在于，所述音频场景特征提取模型包括多个按序排列的卷积层，所述将所述第一声学特征信息输入到音频场景特征提取模型中进行场景特征提取，得到场景特征信息包括：在所述多个按序排列的卷积层中，对所述第一声学特征信息进行场景特征提取，得到场景特征信息。 7.根据权利要求1所述的音频场景分类方法，其特征在于，所述场景分类网络包括多个全连接层和回归分类层，所述将所述场景特征加权信息输入到场景分类网络中进行场景分类，得到音频场景分类结果包括：在所述多个全连接层中，对所述场景特征加权信息进行特征整合，得到全连接特征信息；在所述回归分类层中，对所述全连接特征信息进行场景分类，得到音频场景分类结果。 8.根据权利要求1所述的音频场景分类方法，其特征在于，所述方法包括：获取训练音频信息和所述训练音频信息对应的音频场景标注信息；对所述训练音频信息进行声学特征提取，得到第一声学特征训练信息和第二声学特征训练信息，所述第一声学特征训练信息表征所述训练音频信息的频谱信息，所述第二声学特征训练信息表征所述训练音频信息的频谱包络信息；将所述第一声学特征训练信息输入到训练音频场景特征提取模型中进行场景特征提取，得到场景特征训练信息；将所述第二声学特征训练信息输入到训练声学场景分割模型中进行声学场景分析，得到音频场景训练信息，所述音频场景训练信息表征对所述训练音频信息中的声音事件单元在不同的训练声学场景中的重要程度；将所述场景特征训练信息和所述音频场景训练信息输入到训练注意力模型中进行注意力学习，得到特征加权训练信息；将所述特征加权训练信息输入到训练场景分类网络中进行场景分类，得到音频场景分类训练结果；基于所述音频场景分类训练结果和所述音频场景标注信息，对所述训练音频场景特征提取模型、所述训练声学场景分割模型、所述训练注意力模型和所述训练场景分类网络进行训练，得到所述音频场景特征提取模型、所述声学场景分割模型、所述注意力模型和所述场景分类网络。 9.根据权利要求8所述的音频场景分类方法，其特征在于，所述音频场景训练信息包括多个音频场景训练信息，所述基于所述音频场景分类训练结果和所述音频场景标注信息，对所述训练音频场景特征提取模型、所述训练声学场景分割模型、所述训练注意力模型和所述训练场景分类网络进行训练，得到所述音频场景特征提取模型、所述声学场景分割模型、所述注意力模型和所述场景分类网络包括：根据所述音频场景分类训练结果和所述音频场景标注信息，确定场景误差数据；计算两两音频场景训练信息间的场景相似度；根据所述场景相似度，确定误差补偿数据；根据所述场景误差数据和所述误差补偿数据，确定目标损失数据；基于所述目标损失数据，对所述训练音频场景特征提取模型、所述训练声学场景分割模型、所述训练注意力模型和所述训练场景分类网络进行训练，得到所述音频场景特征提取模型、所述声学场景分割模型、所述注意力模型和所述场景分类网络。 10.一种音频场景分类装置，其特征在于，所述装置包括：音频信息获取模块，被配置为执行获取待分类的音频信息；声学特征提取模块，被配置为执行对所述音频信息进行声学特征提取，得到第一声学特征信息和第二声学特征信息，所述第一声学特征信息表征所述音频信息的频谱信息，所述第二声学特征信息表征所述音频信息的频谱包络信息；场景特征提取模块，被配置为执行将所述第一声学特征信息输入到音频场景特征提取模型中进行场景特征提取，得到场景特征信息；声学场景分析模块，被配置为执行将所述第二声学特征信息输入到声学场景分割模型中进行声学场景分析，得到音频场景信息，所述音频场景信息表征所述音频信息中的声音事件单元在不同的声学场景中的重要程度；注意力学习模块，被配置为执行将所述场景特征信息和所述音频场景信息输入到注意力模型中进行注意力学习，得到场景特征加权信息；场景分类模块，被配置为执行将所述场景特征加权信息输入到场景分类网络中进行场景分类，得到音频场景分类结果。 11.根据权利要求10所述的音频场景分类装置，其特征在于，所述声学场景分割模型包括声音事件获取层和声学场景分类层，所述声学场景分析模块包括：声学特征分割单元，被配置为执行在所述声音事件获取层中，对所述第二声学特征信息进行分割，得到声音事件单元序列；频率计算单元，被配置为执行在所述声学场景分类层中，根据预设的声学场景集，确定所述声音事件单元序列中每个声音事件单元对应的第一频率和第二频率，所述第一频率表征所述每个声音事件单元在每个声学场景中出现的频率，所述第二频率表征所述每个声音事件单元在所述声学场景集中出现的频率；音频场景信息确定单元，被配置为执行在所述声学场景分类层中，根据所述第一频率和所述第二频率，确定所述音频场景信息。 12.根据权利要求10所述的音频场景分类装置，其特征在于，所述场景特征信息包括多个场景特征信息，所述注意力模型包括预处理网络、第一注意力网络和第二注意力网络，所述注意力学习模块包括：均值池化单元，被配置为执行在所述预处理网络中，对所述多个场景特征信息进行均值池化，得到多个目标特征信息；均值处理单元，被配置为执行在所述预处理网络中，对所述多个目标特征信息进行均值处理，得到均值特征信息；第一注意力学习单元，被配置为执行在所述第一注意力网络中，根据所述均值特征信息和所述音频场景信息，确定所述音频场景信息对应的场景加权信息；第二注意力学习单元，被配置为执行在所述第二注意力网络中，根据所述场景加权信息和所述目标特征信息，确定所述目标特征信息对应的场景特征加权信息。 13.根据权利要求12所述的音频场景分类装置，其特征在于，所述音频场景信息包括多个音频场景信息，所述第一注意力网络包括第一相似度计算层、第一权重分布计算层和场景信息加权层，所述第一注意力学习单元包括：第一相似度计算单元，被配置为执行在所述第一相似度计算层中，计算所述均值特征信息与每个音频场景信息间的第一相似度；第一权重分别布计算单元，被配置为执行在所述第一权重分布计算层中，根据所述第一相似度，确定所述音频场景信息对应的第一权重分布；场景信息加权单元，被配置为执行在所述场景信息加权层中，根据所述第一权重分布，对每个音频场景信息进行加权平均，得到场景加权信息。 14.根据权利要求12所述的音频场景分类装置，其特征在于，所述第二注意力网络包括第二相似度计算层、第二权重分布计算层和特征信息加权层，所述第二注意力学习单元包括：第二相似度计算单元，被配置为执行在所述第二相似度计算层中，计算所述场景加权信息与每个目标特征信息间的第二相似度；第二权重分布计算单元，被配置为执行在所述第二权重分布计算层中，根据所述第二相似度，确定所述目标特征信息对应的第二权重分布；特征信息加权单元，被配置为执行在所述特征信息加权层中，根据所述第二权重分布，对每个目标特征信息进行加权平均，得到场景特征加权信息。 15.根据权利要求10所述的音频场景分类装置，其特征在于，所述音频场景特征提取模型包括多个按序排列的卷积层，所述场景特征提取模块包括：场景特征提取单元，被配置为执行在所述多个按序排列的卷积层中，对所述第一声学特征信息进行场景特征提取，得到场景特征信息。 16.根据权利要求10所述的音频场景分类装置，其特征在于，所述场景分类网络包括多个全连接层和回归分类层，所述场景分类模块包括：全连接单元，被配置为执行在所述多个全连接层中，对所述场景特征加权信息进行特征整合，得到全连接特征信息；回归分类单元，被配置为执行在所述回归分类层中，对所述全连接特征信息进行场景分类，得到音频场景分类结果。 17.根据权利要求10所述的音频场景分类装置，其特征在于，所述装置包括：训练信息获取模块，被配置为执行获取训练音频信息和所述训练音频信息对应的音频场景标注信息；声学训练特征提取模块，被配置为执行对所述训练音频信息进行声学特征提取，得到第一声学特征训练信息和第二声学特征训练信息，所述第一声学特征训练信息表征所述训练音频信息的频谱信息，所述第二声学特征训练信息表征所述训练音频信息的频谱包络信息；场景训练特征提取模块，被配置为执行将所述第一声学特征训练信息输入到训练音频场景特征提取模型中进行场景特征提取，得到场景特征训练信息；声学场景分析训练模块，被配置为执行将所述第二声学特征训练信息输入到训练声学场景分割模型中进行声学场景分析，得到音频场景训练信息，所述音频场景训练信息表征对所述训练音频信息中的声音事件单元在不同的训练声学场景中的重要程度；注意力学习训练模块，被配置为执行将所述场景特征训练信息和所述音频场景训练信息输入到训练注意力模型中进行注意力学习，得到特征加权训练信息；场景分类训练模块，被配置为执行将所述特征加权训练信息输入到训练场景分类网络中进行场景分类，得到音频场景分类训练结果；模型训练模块，被配置为执行基于所述音频场景分类训练结果和所述音频场景标注信息，对所述训练音频场景特征提取模型、所述训练声学场景分割模型、所述训练注意力模型和所述训练场景分类网络进行训练，得到所述音频场景特征提取模型、所述声学场景分割模型、所述注意力模型和所述场景分类网络。 18.根据权利要求17所述的音频场景分类装置，其特征在于，所述音频场景训练信息包括多个音频场景训练信息，所述模型训练模块包括：场景误差数据确定单元，被配置为执行根据所述音频场景分类训练结果和所述音频场景标注信息，确定场景误差数据；场景相似度计算单元，被配置为执行计算两两音频场景训练信息间的场景相似度；误差补偿数据确定单元，被配置为执行根据所述场景相似度，确定误差补偿数据；目标损失数据确定单元，被配置为执行根据所述场景误差数据和所述误差补偿数据，确定目标损失数据；模型训练单元，被配置为执行基于所述目标损失数据，对所述训练音频场景特征提取模型、所述训练声学场景分割模型、所述训练注意力模型和所述训练场景分类网络进行训练，得到所述音频场景特征提取模型、所述声学场景分割模型、所述注意力模型和所述场景分类网络。 19.一种电子设备，其特征在于，所述电子设备包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如权利要求1至9中任一项所述的音频场景分类方法。 20.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至9中任一项所述的音频场景分类方法。

专利专题