基于多切片深度神经网络的语音立案方法和装置

引用

摘要：

本发明公开了一种基于多切片的深度神经网络的语音立案方法和装置。所述方法，包括：获取用于立案的语音的初始特征向量；将所述初始特征向量输入主深度神经网络以获得主特征向量；将所述主特征向量在所述主特征向量的长度维度上切分为至少三切分特征向量；将所述至少三切分特征向量分别输入至少三切片深度神经网络以获得至少三子特征向量，所述至少三切片深度神经网络通过单独训练得到；将所述至少三子特征向量组合以获得用于分类的特征向量；以及，将所述用于分类的特征向量以Softmax分类器进行分类以获得所述语音特征向量的分类结果，所述分类结果指示基于所述用于立案的语音是否立案。这样，提高分类的准确性，且分类性能的鲁棒性较高。

专利类型：发明专利

申请/专利号：CN202010854664.X

申请日期：2020-08-24

公开/公告号：CN111710331A

公开/公告日：2020-09-25

主分类号：G10L15/16(2006.01)

申请/专利权人:城云科技(中国)有限公司

发明/设计人:蒋忆;郁强;沈瑶

主申请人地址:310052 浙江省杭州市滨江区长河街道江南大道588号恒鑫大厦主楼17层、18层

专利代理机构:无锡市汇诚永信专利代理事务所(普通合伙)

代理人:李珍珍

国别省市代码:浙江;33

权利要求：

1.一种基于多切片深度神经网络的语音立案方法，其特征在于，包括：获取用于立案的语音的初始特征向量；将所述初始特征向量输入主深度神经网络以获得主特征向量；将所述主特征向量在所述主特征向量的长度维度上切分为三个或者三个以上的切分特征向量；将所述三个或者三个以上的切分特征向量分别输入三个或者三个以上的切片深度神经网络以获得三个或者三个以上的子特征向量，其中，所述三个或者三个以上的切片深度神经网络与所述主深度神经网络分别是深度神经网络模型在深度和高度上的切分，且所述三个或者三个以上的切片深度神经网络通过单独训练得到；将所述三个或者三个以上的子特征向量组合以获得用于分类的特征向量；以及将所述用于分类的特征向量以Softmax分类器进行分类以获得所述用于分类的特征向量的分类结果，所述分类结果指示基于所述用于立案的语音是否立案。 2.根据权利要求1所述的基于多切片深度神经网络的语音立案方法，其中，将所述主特征向量在所述主特征向量的长度维度上切分为三个或者三个以上的切分特征向量，包括：将所述主特征向量在所述主特征向量的长度维度上切分为三个相等长度的切分特征向量。 3.根据权利要求2所述的基于多切片深度神经网络的语音立案方法，其中，将所述三个或者三个以上的子特征向量组合以获得用于分类的特征向量，包括：将所述三个子特征向量并行拼接以获得特征图；以及将所述特征图通过并行拼接的方向上的最大值池化以获得所述用于分类的特征向量。 4.根据权利要求1或者2所述的基于多切片深度神经网络的语音立案方法，其中，将所述三个或者三个以上的子特征向量组合以获得所述用于分类的特征向量，包括：将所述三个子特征向量在所述子特征向量的长度方向上进行拼接以获得用于分类的特征向量。 5.根据权利要求1所述的基于多切片深度神经网络的语音立案方法，其中，获取用于立案的语音的初始特征向量，包括：获取用于立案的语音；将所述语音转换为文本；以及将所述文本通过词嵌入模型转换为所述初始特征向量。 6.根据权利要求1所述的基于多切片深度神经网络的语音立案方法，其中，所述主深度神经网络和所述三个或者三个以上的切片深度神经网络的训练过程，包括：获取用于训练的立案语音的训练特征向量；将所述初始特征向量输入主深度神经网络以获得训练用主特征向量；将所述训练用主特征向量在长度维度上切分为三个或者三个以上的训练用切分特征向量；在所述三个或者三个以上的切片深度神经网络中的每个的训练过程中：将所述三个或者三个以上的训练用切分特征向量之一输入所述每个切片深度神经网络以获得训练用子特征向量；将所述训练用子特征向量通过Softmax分类器以获得Softmax损失函数；以及基于所述Softmax损失函数通过梯度下降的反向传播更新所述每个切片深度神经网络的参数。 7.根据权利要求6所述的基于多切片深度神经网络的语音立案方法，其中，所述三个或者三个以上的切片深度神经网络并行地进行训练。 8.根据权利要求7所述的基于多切片深度神经网络的语音立案方法，其中，获取用于训练的立案语音的训练特征向量，包括：获取用于训练的立案语音的语音数据集，所述语音数据集包括标记为立案成功的正样本和标记为立案失败的负样本；将所述语音数据集中的一条正样本的立案语音和一条负样本的立案语音分别转换为正样本特征向量和负样本特征向量；以及将所述正样本特征向量和所述负样本特征向量拼接为所述训练特征向量。 9.一种基于多切片深度神经网络的语音立案装置，包括：初始特征向量获取单元，用于获取用于立案的语音的初始特征向量；主特征向量生成单元，用于将所述初始特征向量获取单元获得的所述初始特征向量输入主深度神经网络以获得主特征向量；切分特征向量生成单元，用于将所述主特征向量生成单元获得的所述主特征向量在所述主特征向量的长度维度上切分为三个或者三个以上的切分特征向量；子特征向量生成单元，用于将所述切分特征向量生成单元获得的所述三个或者三个以上的切分特征向量分别输入三个或者三个以上的切片深度神经网络以获得三个或者三个以上的子特征向量，其中，所述三个或者三个以上的切片深度神经网络与所述主深度神经网络分别是深度神经网络模型在深度和高度上的切分，且所述三个或者三个以上的切片深度神经网络通过单独训练得到；分类特征向量生成单元，用于将所述子特征向量生成单元获得的所述三个或者三个以上的子特征向量组合以获得用于分类的特征向量；以及分类单元，用于将所述分类特征向量生成单元获得的所述用于分类的特征向量以Softmax分类器进行分类以获得所述用于分类的特征向量的分类结果，所述分类结果指示基于所述用于立案的语音是否立案。 10.一种电子设备，包括：处理器；以及存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行根据权利要求1-8中任一项所述的基于多切片深度神经网络的语音立案方法。

专利专题