一种基于端点检测的语音背景噪声识别方法

引用

摘要：

本发明涉及一种基于端点检测的语音背景噪声识别方法，属于语音信号处理技术领域。首先对带有背景噪声的语音信号进行预处理，预处理包括预加重、分帧和加窗等步骤；其次，提取每一帧语音信号的GFCC0特征，通过模糊C均值聚类法计算该段语音信号GFCC0特征的聚类中心，利用GFCC0特征的聚类中心和双门限法将语音信号分为若干个语音段和噪声段；然后，截取出语音信号的噪声段，并提取语音信号噪声段的短时过零率和短时能量两类特征；最后，通过统计噪声段满足短时能量和短时过零率分布范围的最大帧数占噪声段总帧数的概率，判定所提噪声段的种类，实现语音信号背景噪声的识别。本发明解决了由于前导无话段长度不足导致背景噪声识别效果不佳的问题。

专利类型：发明专利

申请/专利号：CN202110025325.5

申请日期：2021-01-08

公开/公告号：CN112837704A

公开/公告日：2021-05-25

主分类号：G10L25/87(2013.01)

申请/专利权人:昆明理工大学

发明/设计人:龙华;罗思洋;邵玉斌;杜庆治

主申请人地址:650093 云南省昆明市五华区学府路253

专利代理机构:昆明明润知识产权代理事务所(普通合伙)

代理人:王鹏飞

国别省市代码:云南;53

权利要求：

1.一种基于端点检测的语音背景噪声识别方法，其特征在于： Step1：对带有背景噪声的语音信号进行预处理, Step2：利用Gammatone滤波器提取每一帧的语音信号的GFCC特征，取信号GFCC特征的第一维得到语音信号的GFCC0特征； Step3：通过模糊C均值聚类法计算该段语音信号GFCC0特征的聚类中心； Step4：利用GFCC0特征的聚类中心和双门限法对语音进行端点检测，将语音信号分为若干个语音段和噪声段； Step5：根据端点检测的结果截取出语音信号的噪声段，并提取语音信号噪声段的短时过零率和短时能量两类特征； Step6：通过统计噪声段满足短时能量和短时过零率分布范围的最大帧数占噪声段总帧数的概率，实现语音信号背景噪声的识别。 2.根据权利要求1所述的基于端点检测的语音背景噪声识别方法，其特征在于：所述Step1中，预处理包括预加重处理、分帧处理和加窗处理。 3.根据权利要求1所述的基于端点检测的语音背景噪声识别方法，其特征在于：所述Step2中，Gammatone滤波器的时域脉冲响为： h(t)＝gta-1e-2πbtcos(2πft)，t＞0 式中，g为Gammatone滤波器的增益，a为个数，f为中心频率，t为时间，b为带宽，b是以中心频率f为基础计算得到的。 4.根据权利要求1或2所述的基于端点检测的语音背景噪声识别方法，其特征在于：所述Step2中，提取GFCC特征的具体步骤为： Step2.1：对分帧后的信号进行FFT变换，然后计算该帧语音信号的谱线能量Ei(k)； Step2.2：谱线能量Ei(k)通过Gammatone滤波器后进行指数压缩； Step2.3：对指数压缩后的能量进行离散余弦变换得到每一帧信号的GFCC特征； Step2.4：取每一帧信号GFCC特征的第一维系数得到语音信号的GFCC0特征。 5.根据权利要求1所述的基于端点检测的语音背景噪声识别方法，其特征在于：所述Step3中，GFCC0特征聚类中心的计算是通过模糊C均值聚类法计算得到的，在计算时选取的聚类中心个数为2。 6.根据权利要求1所述的基于端点检测的语音背景噪声识别方法，其特征在于：所述Step4中，端点检测的具体步骤为： Step4.1：使用模糊C均值聚类法计算语音信号GFCC0特征的聚类中心； Step4.2：根据语音信号GFCC0特征的聚类中心和经验常数自适应计算该段语音信号的高门限值和低门限值； Step4.3：将高门限值和低门限值分别作为双门限法的高低门限，通过双门限法得到语音端点检测的结果； Step4.4：带噪语音信号是由语音段和噪声段共同构成的，通过端点检测语音信号被分为若干个语音段和噪声段。 7.根据权利要求1所述的基于端点检测的语音背景噪声识别方法，其特征在于：所述Step5中的噪声段截取是指将带噪语音信号中的所有噪声段截取出来。

专利专题