一种基于心理声学模型的LSTM语音增强方法
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方专利
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

专利专题

一种基于心理声学模型的LSTM语音增强方法

引用
一种基于心理声学模型的LSTM语音增强方法,包括以下步骤:S1.对输入的PCM信号进行VAD处理,判断其是否为语音信号;S2.如是语音信号,对语音信号进行特征处理,得到特征信号;S3.将特征信号经过心理声学模型处理,得到声学特征信号;S4.将声学特征信号经过LSTM网络处理,得到增强语音信号;S5.对增强语音信号做ASR处理,实现语音识别。本发明方案利用心理声学模型对带噪信号进行处理,消除冗余成分,降低网络的数据处理量;同时,相较于全连接的语音增强网络,本发明方案采用的LSTM网络可联系上下文信息,进一步提升语音的增强性能,从而提升语音识别率。

发明专利

CN202011418803.0

2020-12-07

CN112201265A

2021-01-08

G10L21/02(2013.01)

成都启英泰伦科技有限公司

万东琴;何云鹏;许兵

610041 四川省成都市高新区天府五街200号菁蓉汇4号楼A座12层

四川;51

1.一种基于心理声学模型的LSTM语音增强方法,其特征在于:包括以下步骤: S1.对输入的PCM信号进行VAD处理,判断其是否为语音信号; S2.如是语音信号,对语音信号进行特征处理,得到特征信号; S3.将特征信号经过心理声学模型处理,得到声学特征信号; S4.将声学特征信号经过LSTM网络处理,得到增强语音信号; S5.对增强语音信号做ASR处理,实现语音识别。 2.如权利要求1所述的LSTM语音增强方法,其特征在于,所述步骤S2具体包括以下步骤: S201.对输入的PCM语音信号进行加窗处理,得到帧长度为的语音帧信号,其中,为窗函数,为时间索引;的数量由语音信号长度决定; S202.对帧长为的语音帧信号做点的快速傅里叶变换,得到长度为的频域信号,其中为帧索引,;为频率索引,; S203.计算长度为的频域信号中各个频点的功率谱: ; 其中,,为信号的采样频率,表示取模; S204.计算频域信号中前个点的功率谱,即频域信号的功率谱为: ;N为帧长; 其中,功率谱即为特征信号。 3.如权利要求2所述的LSTM语音增强方法,其特征在于,所述窗函数是分段函数,在时,为非零值;在为其他时,为0。 4.如权利要求1所述的LSTM语音增强方法,其特征在于,所述步骤S3包括以下子步骤: S301.根据特征信号计算语音信号的声压级: 频率为的声压级; 声压级; 其中为基准声压级;为频率索引,log为对数符号,与的单位均为; S302.将语音信号的声压级输入心理声学模型中,计算其全局掩蔽阈值; S303.将声压级低于全局掩蔽阈值的频点所对应的功率谱置为0,得到声学特征信号。
相关文献
评论
法律状态详情>>
2021-01-08公开
2021-01-08公开
相关作者
相关机构