一种基于融合声纹特征的语音指令合法性判别方法

引用

摘要：

本发明提供一种基于融合声纹特征的语音指令合法性判别方法，包括：设备终端获取语音信号，并转化为文字；将文字与设备终端语音唤醒库中的唤醒词进行匹配，若文字与唤醒词匹配成功，则使用语音活动端点检测技术VAD对所述语音信号进行分离；对分离后的语音信号进行预处理；对预处理后的语音信号提取各个声纹特征，包括：CQCC特征、MFCC特征、LPCC特征、IMFCC特征和频率特征；对各个声纹特征逐一串行合并，得到融合声纹特征；将所述融合声纹特征输入至结合注意力机制和MFM激活函数的ResNet网络进行训练，得到训练好的语音识别模型；利用训练好的语音识别模型检测语音攻击。本发明的有益效果：可以有效检测并防御恶意语音欺诈攻击设备终端，显著提高了终端可用性。

专利类型：发明专利

申请/专利号：CN202110249305.6

申请日期：2021-03-08

公开/公告号：CN112927694A

公开/公告日：2021-06-08

主分类号：G10L15/22(2006.01)

申请/专利权人:中国地质大学(武汉)

发明/设计人:宋军;张芷馨;刘欢;胡祎伟;黄邑灵

主申请人地址:430000 湖北省武汉市洪山区鲁磨路388号

专利代理机构:武汉知产时代知识产权代理有限公司

代理人:彭建怡

国别省市代码:湖北;42

权利要求：

1.一种基于融合声纹特征的语音指令合法性判别方法，其特征在于：包括以下步骤： S101：设备终端获取语音信号，并将所述语音信号转化为文字； S102：将文字与设备终端语音唤醒库中的唤醒词进行匹配，若文字与唤醒词匹配成功，则进入步骤S103，否则流程结束； S103：使用语音活动端点检测技术VAD对所述语音信号进行分离，得到分离后的语音信号； S104：对分离后的语音信号进行预处理，得到预处理后的语音信号； S105：对预处理后的语音信号提取各个声纹特征，包括：语音段常数Q变换倒谱系数CQCC特征、梅尔倒谱系数MFCC特征、语音段线性预测倒谱系数LPCC特征、语音段IMFCC特征和频率特征； S106：对各个声纹特征逐一串行合并，得到融合声纹特征； S107：将所述融合声纹特征输入至结合注意力机制和MFM激活函数的ResNet网络进行训练，得到训练好的语音识别模型； S108：利用训练好的语音识别模型检测语音攻击。 2.如权利要求1所述的一种基于融合声纹特征的语音指令合法性判别方法，其特征在于：步骤S104中，对分离后的语音信号进行预处理，具体包括：预加重处理、分帧处理和加窗处理；预加重处理，具体如式(1)： y(n)＝x(n)-0.97*x(n-1) (1) 式(1)中，x(n)为分离后的语音信号；y(n)为预加重后的信号；分帧处理：将预加重信号每N个采样点组成一帧；N为预设值；加窗处理：将每帧信号乘以窗函数，得到加窗后信号，具体如式(2)： Sw(n)＝y(n)×W(n) (2) 式(2)中，W(n)为窗函数，Sw(n)为加窗后信号。 3.如权利要求1所述的一种基于融合声纹特征的语音指令合法性判别方法，其特征在于：步骤S105中，提取梅尔倒谱系数MFCC特征具体过程如下： S201：对加窗后信号Sw(n)进行快速傅里叶变换，得到变换后的信号； S202：对变换后的信号进行Mel滤波，得到滤波信号； S203：计算滤波信号中每个滤波器组输出的对数能量； S204：根据对数能量，使用离散余弦变换DCT求解梅尔倒谱系数MFCC特征。 4.如权利要求1所述的一种基于融合声纹特征的语音指令合法性判别方法，其特征在于：步骤S105中，提取语音段IMFCC特征具体过程为：将步骤S202中Mel滤波替换为IMel滤波，其余过程与提取梅尔倒谱系数MFCC特征保持不变，最终得到语音段IMFCC特征。 5.如权利要求1所述的一种基于融合声纹特征的语音指令合法性判别方法，其特征在于：步骤S105中提取语音段常数Q变换倒谱系数CQCC特征，具体过程为：对预处理后的语音信号进行CQT变换，得到CQT信号；根据CQT信号提取语音段常数Q变换倒谱系数CQCC特征，如式(3)：式(3)中，CQCC(p)为提取的语音段常数Q变换倒谱系数CQCC特征；l为均匀重新采样频率区间的标号；p＝0,1,...,L-1，L为均匀重新采样频率区间总数；XCQ(l)为CQT信号。 6.如权利要求1所述的一种基于融合声纹特征的语音指令合法性判别方法，其特征在于：步骤S105中提取语音段线性预测倒谱系数LPCC特征的具体过程如下：通过语音样本获取语音预测系数；根据所述语音预测系数，进行倒谱分析，得到语音段线性预测倒谱系数LPCC特征。 7.如权利要求1所述的一种基于融合声纹特征的语音指令合法性判别方法，其特征在于：步骤S106中，对各个声纹特征进行合并前，还对其进行标准化处理；标准化如式(4)所示：式(4)中，x′为一维的声纹特征向量；为一维的声纹特征向量均值；s2为一维的声纹特征向量标准差。

专利专题