语音信号处理方法、装置、设备及存储介质

引用

摘要：

本申请公开了一种语音信号处理方法、装置、设备及存储介质，属于语音信号处理技术领域。本申请通过在获取到麦克风阵列采集到的第一语音信号后，将第一语音信号输入目标模型，由于目标模型是基于携带用户标签和角度标签的样本语音信号对深度神经网络模型进行训练得到，因此目标模型可以对第一语音信号进行识别，输出第一语音信号对应各个用户的概率和第一语音信号对应各个用户在各个角度上说话的概率，进而根据目标模型输出的概率，确定第一语音信号对应的第一用户和第一角度，也即是确定第一语音信号为第一用户在第一角度上说话产生，能够有效降低噪声的影响，同时能够利用用户的语音特征，提高DOA估计的准确性，更准确的确定用户的方向。

专利类型：发明专利

申请/专利号：CN202010826378.2

申请日期：2020-08-17

公开/公告号：CN111696570A

公开/公告日：2020-09-22

主分类号：G10L21/0216(2013.01)

申请/专利权人:北京声智科技有限公司

发明/设计人:栾天祥;陈孝良;冯大航;常乐

主申请人地址:100089 北京市海淀区北清路81号中关村壹号A1座7层

专利代理机构:北京三高永信知识产权代理有限责任公司

代理人:邢少真

国别省市代码:北京;11

权利要求：

1.一种语音信号处理方法，其特征在于，所述方法包括：获取第一语音信号，所述第一语音信号通过麦克风阵列采集得到；将所述第一语音信号输入目标模型，输出所述第一语音信号对应各个用户的概率和所述第一语音信号对应所述各个用户在各个角度上说话的概率，所述目标模型基于携带用户标签和角度标签的样本语音信号，对深度神经网络模型进行训练得到，所述各个角度用于表示所述各个用户相对于所述麦克风阵列的方向；根据所述第一语音信号对应所述各个用户的概率和所述第一语音信号对应所述各个用户在所述各个角度上说话的概率，确定所述第一语音信号对应的第一用户和第一角度。 2.根据权利要求1所述的方法，其特征在于，所述根据所述第一语音信号对应所述各个用户的概率和所述第一语音信号对应所述各个用户在所述各个角度上说话的概率，确定所述第一语音信号对应的第一用户和第一角度，包括：根据所述第一语音信号对应所述各个用户的概率、所述第一语音信号对应所述各个用户在所述各个角度上说话的概率、第二语音信号对应所述各个用户的概率以及所述第二语音信号对应所述各个用户在所述各个角度上说话的概率，确定所述第一语音信号对应的所述第一用户和所述第一角度；其中，所述第二语音信号通过所述麦克风阵列在所述第一语音信号的采集时刻之前的时间段内采集得到。 3.根据权利要求2所述的方法，其特征在于，所述根据所述第一语音信号对应所述各个用户的概率、所述第一语音信号对应所述各个用户在所述各个角度上说话的概率、第二语音信号对应所述各个用户的概率以及所述第二语音信号对应所述各个用户在所述各个角度上说话的概率，确定所述第一语音信号对应的所述第一用户和所述第一角度，包括：对于任一用户和任一角度，获取所述第一语音信号对应所述任一用户的概率、所述第一语音信号对应所述任一用户在所述任一角度上说话的概率和第一平滑因子的乘积，以及第二语音信号对应所述任一用户的概率、所述第二语音信号对应所述任一用户在所述任一角度上说话的概率和第二平滑因子的乘积；对获取到的各个乘积求和，得到所述任一用户和所述任一角度对应的求和结果；确定所述各个用户和所述各个角度对应的求和结果中的最大求和结果；将所述最大求和结果对应的用户和角度分别作为所述第一用户和所述第一角度。 4.根据权利要求1所述的方法，其特征在于，所述将所述第一语音信号输入目标模型，输出所述第一语音信号对应各个用户的概率和所述第一语音信号对应所述各个用户在各个角度上说话的概率，包括：将所述第一语音信号输入所述目标模型，由所述目标模型中的卷积层，对所述第一语音信号进行处理，得到所述第一语音信号的语音特征；由所述目标模型中的长短期记忆LSTM层，对所述卷积层输出的所述第一语音信号的语音特征进行处理；由所述目标模型中的第一全连接层和第二全连接层，对所述LSTM层输出的所述第一语音信号的语音特征进行处理，得到所述第一语音信号对应各个用户的分数和所述第一语音信号对应所述各个用户在各个角度上说话的分数；由所述目标模型中的Softmax层，对所述第一全连接层和第二全连接层输出的分数进行处理，得到所述第一语音信号对应各个用户的概率和所述第一语音信号对应所述各个用户在各个角度上说话的概率。 5.根据权利要求4所述的方法，其特征在于，所述第一语音信号用复数向量表示，所述卷积层用于进行复数域的卷积操作，所述复数域的卷积操作表示如下： W*x=( W0*x0-W1*x1)+ i(W1*x0 + W0*x1) 其中，*表示卷积操作，W=W0+iW1，表示复数卷积核矩阵，W0和W1分别表示实部矩阵和虚部矩阵，x=x0+ix1，表示被卷积的复数向量，x0和x1分别表示实部向量和虚部向量，i为虚数单位。 6.根据权利要求4所述的方法，其特征在于，所述目标模型中的卷积层后连接有归一化层和激活函数层，所述由所述目标模型中的LSTM层，对所述卷积层输出的所述第一语音信号的语音特征进行处理，包括：由所述目标模型中的所述归一化层和所述激活函数层，对所述卷积层输出的所述第一语音信号的语音特征进行处理；由所述目标模型中的所述LSTM层，对所述激活函数层输出的所述第一语音信号的语音特征进行处理。 7.根据权利要求6所述的方法，其特征在于，所述方法还包括：对于输入所述激活函数层的复数向量中的任一元素，当所述任一元素的模小于目标阈值时，所述任一元素的激活函数值为所述任一元素，所述目标阈值大于0；当所述任一元素的模大于或等于所述目标阈值时，所述任一元素的激活函数值为0。 8.根据权利要求1所述的方法，其特征在于，所述将所述第一语音信号输入目标模型，包括：对所述第一语音信号进行加窗处理和傅里叶变换，将变换后的信号输入所述目标模型。 9.根据权利要求1所述的方法，其特征在于，所述目标模型的训练过程包括：将所述样本语音信号输入所述深度神经网络模型，输出所述样本语音信号对应所述各个用户的概率和所述样本语音信号对应所述各个用户在所述各个角度上说话的概率；根据所述样本语音信号对应所述各个用户的概率、所述样本语音信号对应所述各个用户在所述各个角度上说话的概率，以及所述样本语音信号携带的用户标签和角度标签，获取损失函数值；当所述损失函数值未达到训练结束条件时，对所述深度神经网络模型中的参数进行调整；从将样本语音信号输入所述深度神经网络模型，输出概率的步骤重新开始执行，直至损失函数值达到所述训练结束条件时结束训练，将结束训练时的深度神经网络模型作为所述目标模型。 10.根据权利要求9所述的方法，其特征在于，所述根据所述样本语音信号对应所述各个用户的概率、所述样本语音信号对应所述各个用户在所述各个角度上说话的概率、所述样本语音信号携带的用户标签和角度标签，获取损失函数值，包括：对于任一用户和任一角度，获取所述样本语音信号对应所述任一用户的概率、所述样本语音信号对应所述任一用户在所述任一角度上说话的概率以及误差函数值的对数的乘积，所述误差函数值用于表示所述样本语音信号携带的用户标签和角度标签与所述任一用户和所述任一角度的误差；对获取到的各个乘积求和，将求和结果作为所述损失函数值。 11.根据权利要求1所述的方法，其特征在于，所述根据所述第一语音信号对应所述各个用户的概率和所述第一语音信号对应所述各个用户在所述各个角度上说话的概率，确定所述第一语音信号对应的第一用户和第一角度之后，所述方法还包括：根据所述第一角度，控制指示灯指向所述第一用户的方向。 12.根据权利要求11所述的方法，其特征在于，所述根据所述第一角度，控制指示灯指向所述第一用户的方向之后，所述方法还包括：获取第三语音信号，所述第三语音信号通过所述麦克风阵列在所述第一语音信号的采集时刻之后的时间段内采集得到；将所述第三语音信号输入目标模型，输出所述第三语音信号对应所述各个用户的概率和所述第三语音信号对应所述各个用户在所述各个角度上说话的概率；根据所述第三语音信号对应所述各个用户的概率和所述第三语音信号对应所述各个用户在所述各个角度上说话的概率，确定所述第三语音信号对应的第二用户和第二角度；当所述第二用户与所述第一用户相同且所述第二角度与所述第一角度不同时，根据所述第二角度，控制所述指示灯转向所述第二用户的方向。 13.根据权利要求1所述的方法，其特征在于，所述根据所述第一语音信号对应所述各个用户的概率和所述第一语音信号对应所述各个用户在所述各个角度上说话的概率，确定所述第一语音信号对应的第一用户和第一角度之后，所述方法还包括：当所述第一用户和所述第一角度中至少一项符合目标条件时，对所述第一语音信号进行意图识别，得到所述第一语音信号对应的意图；根据所述第一语音信号对应的意图，执行对应的操作。 14.根据权利要求13所述的方法，其特征在于，所述第一用户和所述第一角度中至少一项符合目标条件包括下述任一项：所述第一用户为目标用户；所述第一角度处于目标角度范围内；所述第一用户为所述目标用户且所述第一角度处于所述目标角度范围内。 15.一种语音信号处理装置，其特征在于，所述装置包括多个功能模块，所述多个功能模块用于执行权利要求1至14任一项所述的语音信号处理方法。 16.一种电子设备，其特征在于，所述电子设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条程序代码，所述至少一条程序代码由所述一个或多个处理器加载并执行，以实现如权利要求1至14任一项所述的语音信号处理方法。 17.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现如权利要求1至14任一项所述的语音信号处理方法。

专利专题