一种基于心理声学模型的LSTM语音增强方法

引用

摘要：

一种基于心理声学模型的LSTM语音增强方法，包括以下步骤：S1.对输入的PCM信号进行VAD处理，判断其是否为语音信号；S2.如是语音信号，对语音信号进行特征处理，得到特征信号；S3.将特征信号经过心理声学模型处理，得到声学特征信号；S4.将声学特征信号经过LSTM网络处理，得到增强语音信号；S5.对增强语音信号做ASR处理，实现语音识别。本发明方案利用心理声学模型对带噪信号进行处理，消除冗余成分，降低网络的数据处理量；同时，相较于全连接的语音增强网络，本发明方案采用的LSTM网络可联系上下文信息，进一步提升语音的增强性能，从而提升语音识别率。

专利类型：发明专利

申请/专利号：CN202011418803.0

申请日期：2020-12-07

公开/公告号：CN112201265A

公开/公告日：2021-01-08

主分类号：G10L21/02(2013.01)

申请/专利权人:成都启英泰伦科技有限公司

发明/设计人:万东琴;何云鹏;许兵

主申请人地址:610041 四川省成都市高新区天府五街200号菁蓉汇4号楼A座12层

国别省市代码:四川;51

权利要求：

1.一种基于心理声学模型的LSTM语音增强方法，其特征在于：包括以下步骤： S1.对输入的PCM信号进行VAD处理，判断其是否为语音信号； S2.如是语音信号，对语音信号进行特征处理，得到特征信号； S3.将特征信号经过心理声学模型处理，得到声学特征信号； S4.将声学特征信号经过LSTM网络处理，得到增强语音信号； S5.对增强语音信号做ASR处理，实现语音识别。 2.如权利要求1所述的LSTM语音增强方法，其特征在于，所述步骤S2具体包括以下步骤： S201.对输入的PCM语音信号进行加窗处理，得到帧长度为的语音帧信号，其中，为窗函数，为时间索引；的数量由语音信号长度决定； S202.对帧长为的语音帧信号做点的快速傅里叶变换，得到长度为的频域信号，其中为帧索引，；为频率索引，; S203.计算长度为的频域信号中各个频点的功率谱：；其中，，为信号的采样频率，表示取模； S204.计算频域信号中前个点的功率谱，即频域信号的功率谱为：；N为帧长；其中，功率谱即为特征信号。 3.如权利要求2所述的LSTM语音增强方法，其特征在于，所述窗函数是分段函数，在时，为非零值；在为其他时，为0。 4.如权利要求1所述的LSTM语音增强方法，其特征在于，所述步骤S3包括以下子步骤： S301.根据特征信号计算语音信号的声压级：频率为的声压级；声压级；其中为基准声压级；为频率索引，log为对数符号，与的单位均为； S302.将语音信号的声压级输入心理声学模型中，计算其全局掩蔽阈值； S303.将声压级低于全局掩蔽阈值的频点所对应的功率谱置为0，得到声学特征信号。

专利专题