使用视频数据促进的音频源增强

引用

摘要：

提供了用于使用视频数据促进的音频信号增强的系统和方法。在一个示例中，方法包括接收包括由多个音频输入设备检测的音频输入的多信道音频信号。该方法还包括接收由视频输入设备捕获的图像。方法还包括至少部分地基于图像确定第一信号。第一信号指示与目标音频源相关联的可能性。方法还包括至少部分地基于多信道音频信号和第一信号来确定第二信号。第二信号指示与归因于目标音频源的音频分量相关联的可能性。方法还包括至少部分地基于第二信号来处理多信道音频信号以生成输出音频信号。

专利类型：发明专利

申请/专利号：CN202010587240.1

申请日期：2020-06-24

公开/公告号：CN112151063A

公开/公告日：2020-12-29

主分类号：G10L21/034(2013.01)

申请/专利权人:辛纳普蒂克斯公司

发明/设计人:F·内斯塔;B·博涅夫;U·高尔

主申请人地址:美国加利福尼亚州

专利代理机构:中国专利代理(香港)有限公司

代理人:冯夏雨%闫小龙

国别省市代码:美国;US

权利要求：

1.一种方法，包括：接收包括由多个音频输入设备检测的音频输入的多信道音频信号；接收由视频输入设备捕获的图像；至少部分地基于所述图像来确定第一信号，其中所述第一信号指示与目标音频源相关联的可能性；至少部分地基于所述多信道音频信号和所述第一信号来确定第二信号，其中所述第二信号指示与归因于所述目标音频源的音频分量相关联的可能性；以及至少部分地基于所述第二信号来处理所述多信道音频信号以生成输出音频信号。 2.根据权利要求1所述的方法，其中所述处理增强了归因于所述目标音频源的所述音频分量，并且其中所述多个音频输入设备包括麦克风的阵列。 3.根据权利要求1所述的方法，还包括：接收多个图像；将所述多个图像中的音频源识别为所述目标音频源；以及至少部分地基于所述多个图像对所述音频源执行唇部运动检测，其中所述第二信号还基于所述唇部运动检测。 4.根据权利要求1所述的方法，其中所述处理所述多信道音频信号包括至少部分地基于以下内容来处理所述多信道音频信号以生成静音的音频：所述目标音频源是否被确定为在所述图像中、所述目标音频源相对于所述视频输入设备的位置、所述目标音频源的注视的方向和/或是否检测到所述目标音频源的唇部运动。 5.根据权利要求1所述的方法，其中所述第一信号是二进制信号，并且其中所述二进制信号至少部分地基于所述目标音频源被确定为在所述图像中而处于第一状态。 6.根据权利要求1所述的方法，还包括：检测所述图像中的至少一个面部；以及至少部分地基于预定义面部识别符来将所述至少一个面部中的一个识别为所述目标音频源。 7.根据权利要求1所述的方法，还包括对所述多信道音频信号执行音频语音活动检测（VAD）以生成VAD信号，其中至少部分地基于所述VAD信号来确定所述第二信号。 8.根据权利要求1所述的方法，还包括：确定所述目标音频源在所述图像中的位置；以及至少部分地基于所述位置来处理所述图像以生成输出视频信号。 9.根据权利要求8所述的方法，还包括通过网络将所述输出音频信号和所述输出视频信号传输到外部设备。 10.根据权利要求8所述的方法，其中所述处理所述图像包括至少部分地基于所述位置来模糊所述图像的一部分以生成所述输出视频信号。 11.根据权利要求8所述的方法，其中如果确定所述目标音频源不在所述图像中，则所述输出视频信号包括完全模糊的图像或完全消隐的图像。 12.根据权利要求1所述的方法，还包括至少部分地基于所述图像来确定所述目标音频源的注视的方向，其中所述第一信号和/或所述第二信号还基于所述注视的所述方向。 13.根据权利要求1所述的方法，还包括传输所述输出音频信号以用于在通过因特网协议的语音（VoIP）应用中使用。 14.根据权利要求13所述的方法，还包括至少基于所述目标音频源相对于所述视频输入设备的位置来将所述VoIP应用的会话设置成睡眠模式。 15.一种系统，包括：视频子系统，其配置成接收由视频输入设备捕获的图像，所述视频子系统包括：识别部件，其配置成至少部分地基于所述图像来确定第一信号，其中所述第一信号指示与目标音频源相关联的可能性；以及音频子系统，其配置成接收包括由多个音频输入设备检测的音频输入的多信道音频信号，所述音频子系统包括：逻辑部件，其配置成至少部分地基于所述多信道音频信号和所述第一信号来确定第二信号，其中所述第二信号指示与归因于所述目标音频源的音频分量相关联的可能性；以及音频处理部件，其配置成至少部分地基于所述第二信号来处理所述多信道音频信号以生成输出音频信号。 16.根据权利要求15所述的系统，其中所述视频子系统还包括视频处理部件，所述视频处理部件配置成至少部分地基于所述目标音频源在所述图像中的位置来处理所述图像以生成输出视频信号。 17.根据权利要求16所述的系统，其中所述视频处理部件包括背景模糊部件，所述背景模糊部件配置成至少部分地基于所述位置来模糊所述图像的一部分以生成所述输出视频信号。 18.根据权利要求15所述的系统，其中：所述识别部件还配置成将多个图像中的音频源识别为所述目标音频源；所述视频子系统还包括唇部运动检测部件，所述唇部运动检测部件配置成至少部分地基于所述多个图像来对所述音频源执行唇部运动检测；以及所述第二信号还基于所述唇部运动检测。 19.根据权利要求15所述的系统，其中所述音频子系统还包括音频语音活动检测（VAD）部件，其配置成对所述多信道音频信号执行VAD以生成VAD信号，其中至少部分地基于所述VAD信号来确定所述第二信号。 20.根据权利要求15所述的系统，其中所述音频处理部件配置成至少部分地基于以下内容来处理所述多信道音频信号以生成静音的音频：所述目标音频源是否被确定为在所述图像中、所述目标音频源相对于所述视频输入设备的位置、所述目标音频源的注视的方向和/或是否检测到所述目标音频源的唇部运动。

专利专题