实时检测音频信号中的语音活动

引用

摘要：

提供了实时检测音频信号中的语音活动。用于检测语音活动的系统和方法。该系统包括音频源和电子处理器。电子处理器被配置为从音频源接收第一音频信号，缓冲第一音频信号，向缓冲的第一音频信号添加随机噪声，以及对第一音频流滤波以创建滤波信号。电子处理器然后确定滤波信号的每个帧的信号熵，确定在滤波信号的开始处出现的滤波信号的第一多个帧的平均信号熵，并且将滤波信号的每个帧的信号熵与平均信号熵进行比较。基于该比较，电子处理器确定位于滤波信号的第一帧中的第一语音端点。

专利类型：发明专利

申请/专利号：CN202010564723.X

申请日期：2020-06-19

公开/公告号：CN112116927A

公开/公告日：2020-12-22

主分类号：G10L25/87(2013.01)

申请/专利权人:罗伯特·博世有限公司

发明/设计人:P·安格吉迪特拉库尔;H·金

主申请人地址:德国斯图加特

专利代理机构:中国专利代理(香港)有限公司

代理人:毕铮%陈岚

国别省市代码:德国;DE

权利要求：

1.一种用于自动检测音频信号中的语音端点的系统，所述系统包括：音频源；和电子处理器，其被配置为从音频源接收第一音频信号；缓冲第一音频信号；向缓冲的第一音频信号添加随机噪声；对第一音频流滤波以创建滤波信号；确定所述滤波信号的每个帧的信号熵；确定所述滤波信号的第一多个帧的平均信号熵，所述第一多个帧在所述滤波信号的开始处出现；将所述滤波信号的每个帧的信号熵与平均信号熵进行比较；以及基于所述比较，确定位于所述滤波信号的第一帧中的第一语音端点。 2.根据权利要求1所述的系统，其中，使用带限滤波器对第一音频信号滤波。 3.根据权利要求2所述的系统，其中，带限滤波器具有250赫兹的下限和6000赫兹的上限。 4.根据权利要求1所述的系统，其中，第一帧出现在所述滤波信号的第一多个帧之后。 5.根据权利要求1所述的系统，其中，电子处理器进一步被配置为确定所述滤波信号的第二帧中的第二语音端点，第二帧在所述滤波信号中比第一帧晚出现。 6.根据权利要求5所述的系统，其中，第一语音端点是语音的开始点，并且第二语音端点是语音的结束点。 7.根据权利要求5所述的系统，其中，当第二帧之后的预定数量的帧具有在偏移阈值以下的信号熵时，确定第二语音端点。 8.根据权利要求7所述的系统，其中，基于平均信号熵和权重参数来确定偏移阈值。 9.根据权利要求1所述的系统，其中，当第一帧之后的预定数量的帧具有大于开端阈值的信号熵时，确定第一语音端点。 10.根据权利要求9所述的系统，其中，基于平均信号熵和权重参数来确定开端阈值。 11.一种用于自动检测音频信号中的语音端点的方法，所述方法包括：由电子处理器从音频源接收第一音频信号；经由电子处理器缓冲第一音频信号；经由电子处理器向缓冲的第一音频信号添加随机噪声；经由电子处理器对第一音频流滤波以创建滤波信号；经由电子处理器确定所述滤波信号的每个帧的信号熵；经由电子处理器确定所述滤波信号的第一多个帧的平均信号，所述第一多个帧出现在所述滤波信号的开始处；经由电子处理器将所述滤波信号的每个帧的信号熵与平均信号熵进行比较；以及基于所述比较，经由电子处理器确定位于所述滤波信号的第一帧中的第一语音端点。 12.根据权利要求11所述的方法，其中，使用带限滤波器对第一音频信号滤波。 13.根据权利要求12所述的方法，其中，带限滤波器具有250赫兹的下限和6000赫兹的上限。 14.根据权利要求11所述的方法，其中，第一帧出现在所述滤波信号的第一多个帧之后。 15.根据权利要求11所述的方法，进一步包括经由电子处理器确定所述滤波信号的第二帧中的第二语音端点，第二帧在所述滤波信号中比第一帧晚出现。 16.根据权利要求15所述的方法，其中，第一语音端点是语音的开始点，并且第二语音端点是语音的结束点。 17.根据权利要求15所述的方法，其中，当第二帧之后的预定数量的帧具有在偏移阈值以下的信号熵时，确定第二语音端点。 18.根据权利要求17所述的方法，其中，基于平均信号熵和权重参数来确定偏移阈值。 19.根据权利要求11所述的方法，其中，当第一帧之后的预定数量的帧具有大于开端阈值的信号熵时，确定第一语音端点。 20.根据权利要求19所述的方法，其中，基于平均信号熵和权重参数来确定开端阈值。

专利专题