声音信号获取方法和装置、存储介质、电子设备

引用

摘要：

本公开实施例公开了一种声音信号获取方法和装置、存储介质、电子设备，其中，方法包括：获取空间中的原始信号，所述原始信号是基于所述空间中的K个声源发出的声音信号确定的，所述K为声源数量，且为大于或等于1的整数；获取所述K个声源中每个声源的图像；基于每个所述声源的图像和所述原始信号，确定所述K个声源中目标声源的声音信号，本公开除了获取声音信号本身，还获取了额外的体现为声源的图像的视觉信息，结合声音信号和图像信息实现实时获取期望信号，由于加入了图像的视觉信息，因此可直观获得空间当前环境的复杂程度，进而可提高目标声源的声音信号的准确性和完整性。

专利类型：发明专利

申请/专利号：CN201910351668.3

申请日期：2019-04-28

公开/公告号：CN111863005A

公开/公告日：2020-10-30

主分类号：G10L21/0208(2013.01)

申请/专利权人:北京地平线机器人技术研发有限公司

发明/设计人:张志飞

主申请人地址:100080 北京市海淀区中关村大街1号3层318

专利代理机构:北京思源智汇知识产权代理有限公司

代理人:毛丽琴

国别省市代码:北京;11

权利要求：

1.一种声音信号获取方法，包括：获取空间中的原始信号，所述原始信号是基于所述空间中的K个声源发出的声音信号确定的，所述K为声源数量，且为大于或等于1的整数；获取所述K个声源中每个声源的图像；基于所述每个声源的图像和所述原始信号，确定所述K个声源中目标声源的声音信号。 2.根据权利要求1所述的方法，其中，所述获取空间中的原始信号，包括：通过声音采集阵列中包括的M个声音采集通道获得M个原始信号，所述M为原始信号的信号数量，且为大于1的整数；所述基于所述每个声源的图像和所述原始信号，确定所述K个声源中目标声源的声音信号，包括：根据所述声源数量与所述信号数量之间的大小关系，从所述原始信号获得所述K个声源对应的K个声音信号；基于所述K个声源中每个声源的图像从所述K个声音信号中确定所述目标声源的声音信号。 3.根据权利要求2所述的方法，其中，所述根据所述声源数量与所述信号数量之间的大小关系，从所述原始信号获得所述K个声源对应的K个声音信号，包括：响应于所述声源数量与所述信号数量之间的大小关系满足第一预设条件，利用盲信号分离算法从所述原始信号中分离出所述K个声源的声音信号；分别通过所述M个声音采集通道中的K个通道输出K个声音信号。 4.根据权利要求3所述的方法，其中，所述基于所述K个声源中每个声源的图像从所述K个声音信号中确定所述目标声源的声音信号，包括：基于所述K个声源中每个声源的图像确定所述每个声源的位置信息，基于所述每个声源的位置信息确定所述每个声源与所述声音采集阵列之间的第一角度；基于所述获得K个声音信号确定每个声音信号与所述声音采集阵列之间的第二角度，所述第一角度和所述第二角度在同一坐标系下；基于所述每个声源对应的第一角度和所述每个声音信号对应的第二角度，从所述M个声音采集通道中确定目标声音采集通道；通过所述目标声音采集通道输出所述目标声源的声音信号。 5.根据权利要求4所述的方法，其中，所述基于所述每个声源对应的第一角度和所述每个声音信号对应的第二角度，从所述M个声音采集通道中确定目标声音采集通道，包括：基于所述每个声音信号的信噪比从所述K个声源中确定目标声源；基于所述目标声源对应的第一角度和所述每个声音信号对应的第二角度，从所述M个声音采集通道中确定目标声音采集通道。 6.根据权利要求5所述的方法，其中，所述基于所述目标声源对应的第一角度和所述每个声音信号对应的第二角度，从所述M个声音采集通道中确定目标声音采集通道，包括：计算所述目标声源对应的第一角度与所述每个声音信号对应的第二角度之间差值绝对值，获得多个差值绝对值；确定所述多个差值绝对值中最小的差值绝对值；将所述最小的差值绝对值对应的所述声音信号对应的声音采集通道作为所述目标声音通道。 7.根据权利要求3所述的方法，其中，所述基于所述K个声源中每个声源的图像从所述K个声音信号中确定所述目标声源的声音信号，包括：响应于已知所述目标声源的相关信息，基于所述目标声源的相关信息，获得所述目标声源与所述声音采集阵列之间的第一角度；基于所述获得K个声音信号确定所述每个声音信号与所述声音采集阵列之间的第二角度，所述第一角度和所述第二角度在同一坐标系下；基于所述目标声源对应的第一角度和所述每个声音信号对应的第二角度，从所述M个声音采集通道中确定目标声音采集通道，通过所述目标声音采集通道输出所述目标声源的声音信号。 8.根据权利要求2所述的方法，所述根据所述声源数量与所述信号数量之间的大小关系，从所述原始信号获得所述K个声源对应的K个声音信号，包括：响应于所述声源数量与所述信号数量之间的大小关系满足第二预设条件，将所述原始信号作为所述目标声源的声音信号。 9.根据权利要求1-8任一所述的方法，其中，所述获取所述K个声源中每个声源的图像，包括：采集所述空间中的第一图像；识别所述第一图像中的人脸特征；基于所述人脸特征确定处于发声状态的用户作为所述声源；将所述处于发声状态的用户对应的图像作为所述声源的图像；和/或，获取所述K个声源中每个声源的图像，包括：采集所述空间中的第二图像；识别所述第二图像中的固定物体特征；基于所述固定物体特征确定处于发声状态的固定物体作为所述声源；将所述处于发声状态的固定物体对应的图像作为所述声源的图像。 10.根据权利要求9所述的方法，还包括：基于所述目标声源的声音信号，实现以下至少一个操作：声纹识别、语音唤醒和识别、对象识别。 11.一种声音信号获取装置，包括：原始信号获取模块，用于获取空间中的原始信号，所述原始信号是基于所述空间中的K个声源发出的声音信号确定的，所述K为声源数量，且为大于或等于1的整数；图像采集模块，用于获取所述K个声源中每个声源的图像；目标信号获取模块，用于基于所述图像采集模块获得的所述每个声源的图像和所述原始信号获取模块获取的原始信号，确定所述K个声源中目标声源的声音信号。 12.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-10任一所述的声音信号获取方法。 13.一种电子设备，所述电子设备包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于执行上述权利要求1-10任一所述的声音信号获取方法。

专利专题