高龄老人不完整语音智能识别方法

引用

摘要：

本发明涉及语音识别技术领域，尤其涉及一种高龄老人不完整语音智能识别方法。一种高龄老人不完整语音智能识别方法，包括如下步骤：步骤S1，语音数据预处理，采集原始语音信号，并对其进行预先处理，具体包括语音信号加窗分帧；语音信号端点检测；采用信号子空间增强算法对语音增强处理；步骤S2，语音特征提取，对提取的特征参数进行融合；步骤S3，建立语音声学模型。本发明的高龄老人不完整语音智能识别技术能够降低由老年人发声器官老化而引起的声音幅值轻微、受环境噪声影响大的问题，采用声音参数融合的语音特征能够更加逼近高龄老人的语音特点，从而能够获取全面表征老人语音特征的数据，提高了对老人不完整语音以及模糊语音的识别度。

专利类型：发明专利

申请/专利号：CN202010965984.2

申请日期：2020-09-15

公开/公告号：CN112071307A

公开/公告日：2020-12-11

主分类号：G10L15/02(2006.01)

申请/专利权人:江苏慧明智能科技有限公司

发明/设计人:罗晓君;杨金水;孙瑜;罗湘喜

主申请人地址:212000 江苏省镇江市市辖区丁卯智慧大道468号双子楼A座2009室

专利代理机构:南京中高专利代理有限公司

代理人:徐莉娜

国别省市代码:江苏;32

权利要求：

1.一种高龄老人不完整语音智能识别方法，其特征在于，包括如下步骤：步骤S1，语音数据预处理，采集原始语音信号，并对其进行预先处理，其中，具体包括如下步骤，步骤S11，语音信号加窗分帧；步骤S12，语音信号端点检测；步骤S13，采用信号子空间增强算法对语音增强处理；步骤S2，语音特征提取，对提取的特征参数进行融合；步骤S3，建立语音声学模型。 2.根据权利要求1所述的高龄老人不完整语音智能识别方法，其特征在于，所述步骤S11中，首先使用一个带通滤波器作为抗混叠滤波器，抑制语音信号中频率超过fs/2的混叠分量；其次，通过分帧操作将语音信号分割成大量极短时间片段，分帧的实现是将原始语音序列x(n)和窗函数w(n)相乘，公式为：再次，通过加窗处理使得语音信号表现出一些周期性函数的特征；式中，fs为采样频率，其中为加窗分帧后语音数据，w(n)的长度等于帧长。 3.根据权利要求1所述的高龄老人不完整语音智能识别方法，其特征在于，所述步骤S12中语音信号端点检测采用改进的双门限法对语音信号端点进行检测，具体为将语音信号先经过语音增强，再经过中值滤波的平滑处理，最后进行端点检测。 4.根据权利要求1所述的高龄老人不完整语音智能识别方法，其特征在于，所述信号子空间增强算法如下：设带噪语音信号为y，纯净语音信号为x，噪音信号为n，其对应的功率谱协方差矩阵分别为Ry、Rx、Rn，则具有以下的关系式： y＝x+n (1.2) Ry＝Rx+Rn (1.3) 其中，y＝”y1，y2，...，yk”，x＝”x1，x2，...，xk”，n＝”n1，n2，...，nk”，K为语音信号长度， Rx＝UΛxUT (1.4) 其中，为特征值降序排列的纯净语音特征值矩阵，其中有Q个非零特征值，K-Q个零特征值；设噪声方差为则噪音功率谱协方差矩阵为：若噪声不为白噪声，则需要进行预白化，此时带噪语音信号功率谱协方差矩阵为：其中为特征值降序排列的带噪语音特征值矩阵，其特征值如下：从式(1.7)中可以看出，同时包含噪音信号和纯净语音信号的信号子空间维度为Q，只包含噪音信号的噪声子空间维度为K-Q；设H为K×K的时域线性估计器，带噪语音信号通过H可以分离开信号子空间和噪声子空间，其输出的估计值为：则估计值与实际值的误差ε为：其中εx称为语音失真，εn称为残留噪声；εx越大则增强语音失真度越大，语音畸变越大，εn越大增强后残留噪声越大；两者能量为：得到近似最优滤波器，即求解：其中0≤α≤1，也就是在保证残留噪音能量在一定范围下使得语音失真能量最小，当α≥1时，取H＝I时为此问题最优解；用拉格朗日乘子算法，满足以下梯度方程：其中μ为拉格朗日算子，再求梯度得到： Λμ为拉格朗日算子对角矩阵，经过特征值分解得到：将公式(1.16)改写为：公式(1.17)中，G1为Q×Q的满秩对角矩阵，U＝”U1：U2”，U1∈CK×Q为信号子空间的基向量，U2∈CK(K-Q)是噪声子空间的基向量；G的对角线元素表示如下：线性滤波器Hopt的性能受到拉格朗日算子μi和噪声方差的影响，其中表示带噪语音的噪声强度，μi则表示了增强后语音失真与残存噪声之间的折中关系；通过联合人耳听觉掩蔽效应，得到拉格朗日算子的改进估计值：带入公式(1.18)，得到矩阵G的对角元素由此可以计算得到最佳线性估计器Hopt，带入公式(1.17)中计算增强后语音信号。 5.根据权利要求1所述的高龄老人不完整语音智能识别方法，其特征在于，所述步骤S2中采用MFCC进行语音特征参数提取，MFCC与普通频率的关系式如下： 6.根据权利要求5所述的高龄老人不完整语音智能识别方法，其特征在于，所述步骤S2中，选择MFCC特征与其一、二阶差分参数组合，MFCC参数的一阶差分di(n)和二阶差分Δdi(n)表达如下：采用翻转梅尔倒谱系数(IMFCC)，将传统滤波器组换成翻转Mel滤波器组，其IMel频率与普通频率的转换关系如下：在保证特征向量维度不增长的情况下，计算出每个特征分量对于识别算法的贡献程度，将其中贡献度最高的特征信号进行组合，进而得到的优化后的MFCC系数，记为OMFCC系数，使用Fisher准则来完成对特征向量对系统贡献度的表征，在模式识别中，Fisher准则可以用来描述一个特征的类别可分离性： rF为特定特征参数的Fisher比，σb和σw分别是特征参数的类间散度(方差)和类内散度(方差)。 7.根据权利要求6所述的高龄老人不完整语音智能识别方法，其特征在于，选定融合的特征参数包括：MFCC、IMFCC、改进后OMFCC系数、平均短时能量En、基音周期p以及Teager-Kaiset能量算子TKEO。 8.根据权利要求1所述的高龄老人不完整语音智能识别方法，其特征在于，所述声学模型为GMM-HMM模型，该模型中，GMM训练初值优化算法采用模糊C均值算法，通过FCM将样本预训练一遍，再计算分类后的M类样本的权重值、聚类中心和协方差，并将其作为EM算法的初始参数”ωi，μi，∑i”。 9.根据权利要求1所述的高龄老人不完整语音智能识别方法，其特征在于，所述声学模型为DNN-HMM模型。

专利专题