一种基于心理声学模型的LSTM语音增强方法
一种基于心理声学模型的LSTM语音增强方法,包括以下步骤:S1.对输入的PCM信号进行VAD处理,判断其是否为语音信号;S2.如是语音信号,对语音信号进行特征处理,得到特征信号;S3.将特征信号经过心理声学模型处理,得到声学特征信号;S4.将声学特征信号经过LSTM网络处理,得到增强语音信号;S5.对增强语音信号做ASR处理,实现语音识别。本发明方案利用心理声学模型对带噪信号进行处理,消除冗余成分,降低网络的数据处理量;同时,相较于全连接的语音增强网络,本发明方案采用的LSTM网络可联系上下文信息,进一步提升语音的增强性能,从而提升语音识别率。
发明专利
CN202011418803.0
2020-12-07
CN112201265A
2021-01-08
G10L21/02(2013.01)
成都启英泰伦科技有限公司
万东琴;何云鹏;许兵
610041 四川省成都市高新区天府五街200号菁蓉汇4号楼A座12层
四川;51
1.一种基于心理声学模型的LSTM语音增强方法,其特征在于:包括以下步骤: S1.对输入的PCM信号进行VAD处理,判断其是否为语音信号; S2.如是语音信号,对语音信号进行特征处理,得到特征信号; S3.将特征信号经过心理声学模型处理,得到声学特征信号; S4.将声学特征信号经过LSTM网络处理,得到增强语音信号; S5.对增强语音信号做ASR处理,实现语音识别。 2.如权利要求1所述的LSTM语音增强方法,其特征在于,所述步骤S2具体包括以下步骤: S201.对输入的PCM语音信号进行加窗处理,得到帧长度为的语音帧信号,其中,为窗函数,为时间索引;的数量由语音信号长度决定; S202.对帧长为的语音帧信号做点的快速傅里叶变换,得到长度为的频域信号,其中为帧索引,;为频率索引,; S203.计算长度为的频域信号中各个频点的功率谱: ; 其中,,为信号的采样频率,表示取模; S204.计算频域信号中前个点的功率谱,即频域信号的功率谱为: ;N为帧长; 其中,功率谱即为特征信号。 3.如权利要求2所述的LSTM语音增强方法,其特征在于,所述窗函数是分段函数,在时,为非零值;在为其他时,为0。 4.如权利要求1所述的LSTM语音增强方法,其特征在于,所述步骤S3包括以下子步骤: S301.根据特征信号计算语音信号的声压级: 频率为的声压级; 声压级; 其中为基准声压级;为频率索引,log为对数符号,与的单位均为; S302.将语音信号的声压级输入心理声学模型中,计算其全局掩蔽阈值; S303.将声压级低于全局掩蔽阈值的频点所对应的功率谱置为0,得到声学特征信号。