本体感知声音分类

引用

摘要：

一个本体感知声音分类的系统。该系统包括电子处理器，该电子处理器被配置为基于精细音频分类标签之间的关系而创建第一图，以及基于粗略音频分类标签之间的关系而创建第二图。电子处理器还被配置为接收包括一个或多个声音的音频剪辑，以第一图作为输入来执行第一图卷积网络，以及以第二图作为输入来执行第二图卷积网络。使用第一图卷积网络和第二图卷积网络的输出，电子处理器被配置为确定一个或多个粗略标签、一个或多个精细标签、或二者，以对音频剪辑中的一个或多个声音进行分类。

专利类型：发明专利

申请/专利号：CN202011548123.0

申请日期：2020-12-24

公开/公告号：CN113129906A

公开/公告日：2021-07-16

主分类号：G10L17/26(2013.01)

申请/专利权人:罗伯特·博世有限公司

发明/设计人:S·加法扎德甘;冯哲;孙熠玮

主申请人地址:德国斯图加特

专利代理机构:中国专利代理(香港)有限公司

代理人:李雪娜%周学斌

国别省市代码:德国;DE

权利要求：

1.一种用于本体感知声音分类的系统，所述系统包括电子处理器，所述电子处理器被配置为基于精细音频分类标签之间的关系而创建第一图；基于粗略音频分类标签之间的关系而创建第二图；接收包括一个或多个声音的音频剪辑；以第一图作为输入来执行第一图卷积网络；以第二图作为输入来执行第二图卷积网络；以及使用第一图卷积网络和第二图卷积网络的输出来确定一个或多个粗略标签、一个或多个精细标签、或二者，以对音频剪辑中的一个或多个声音进行分类。 2.根据权利要求1所述的系统，其中所述电子处理器被配置为确定一个或多个粗略标签、一个或多个精细标签或二者，以通过以下方式对音频剪辑中的一个或多个声音进行分类使用神经网络从音频剪辑产生向量。 3.根据权利要求2所述的系统，其中所述神经网络是卷积递归神经网络。 4.根据权利要求2所述的系统，其中以第一图作为输入来执行第一图卷积网络的输出是第一矩阵，并且所述电子处理器进一步被配置为将向量乘以第一矩阵，以产生被预测为与音频剪辑相关联的一个或多个精细标签。 5.根据权利要求4所述的系统，其中所述电子处理器被配置为以被预测为与音频剪辑相关联的一个或多个精细标签作为输入来执行单层前馈神经网络，以产生与音频剪辑相关联的一个或多个预测的粗略标签。 6.根据权利要求2所述的系统，其中以第二图作为输入来执行第二图卷积网络的输出是第二矩阵，并且所述电子处理器进一步被配置为将向量乘以第二矩阵，以产生被预测为与音频剪辑相关联的一个或多个粗略标签。 7.根据权利要求6所述的系统，其中所述电子处理器被配置为以被预测为与音频剪辑相关联的一个或多个粗略标签作为输入来执行单层前馈神经网络，以产生与音频剪辑相关联的一个或多个预测的精细标签。 8.根据权利要求1所述的系统，其中所述电子处理器被配置为使用多个标记的音频剪辑和定义声音标签本体的一个或多个数据结构来创建第一图和第二图。 9.根据权利要求1所述的系统，其中包括在第一图中的每个节点与精细标签相关联，并且包括在第二图中的每个节点与粗略标签相关联，并且第一图和第二图二者中的边关联于与边连接的节点相关联的标签在音频剪辑中共现的概率。 10.根据权利要求1所述的系统，其中所述系统由从包括家庭监视应用、监督应用、自动车辆应用和交通监视应用的组中选择的至少一个使用。 11.一种用于本体感知的声音分类的方法，该方法包括基于精细音频分类标签之间的关系而创建第一图；基于粗略音频分类标签之间的关系而创建第二图；接收包括一个或多个声音的音频剪辑；以第一图作为输入来执行第一图卷积网络；以第二图作为输入来执行第二图卷积网络；以及使用第一图卷积网络和第二图卷积网络的输出来确定一个或多个粗略标签、一个或多个精细标签、或二者，以对音频剪辑中的一个或多个声音进行分类。 12.根据权利要求11所述的方法，其中确定一个或多个粗略标签、一个或多个精细标签、或二者，以对音频剪辑中的一个或多个声音进行分类包括使用神经网络从音频剪辑产生向量。 13.根据权利要求12所述的方法，其中所述神经网络是卷积递归神经网络。 14.根据权利要求12所述的方法，其中以第一图作为输入来执行第一图卷积网络的输出是第一矩阵，并且所述方法进一步包括将向量乘以第一矩阵，以产生被预测为与音频剪辑相关联的一个或多个精细标签。 15.根据权利要求14所述的方法，所述方法进一步包括以被预测为与音频剪辑相关联的一个或多个精细标签作为输入来执行单层前馈神经网络，以产生与音频剪辑相关联的一个或多个预测的粗略标签。 16.根据权利要求12所述的方法，其中以第二图作为输入来执行第二图卷积网络的输出是第二矩阵，并且所述方法进一步包括将向量乘以第二矩阵，以产生预测为与音频剪辑相关联的一个或多个粗略标签。 17.根据权利要求16所述的方法，其中所述方法进一步包括以被预测为与音频剪辑相关联的一个或多个粗略标签作为输入来执行单层前馈神经网络，以产生与音频剪辑相关联的一个或多个预测的精细标签。 18.根据权利要求11所述的方法，其中所述方法进一步包括使用多个标记的音频剪辑和定义声音标签本体的一个或多个数据结构来创建第一图和第二图。 19.根据权利要求11所述的方法，其中包括在第一图中的每个节点与精细标签相关联，并且包括在第二图中的每个节点与粗略标签相关联，并且第一图和第二图二者中的边关联于与边连接的节点相关联的标签在音频剪辑中共现的概率。 20.根据权利要求11所述的方法，其中所述方法被从包括家庭监视应用、监督应用、自主车辆应用和交通监视应用的组所选择的至少一个利用。

专利专题