一种基于融合声纹特征的语音指令合法性判别方法
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方专利
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

专利专题

一种基于融合声纹特征的语音指令合法性判别方法

引用
本发明提供一种基于融合声纹特征的语音指令合法性判别方法,包括:设备终端获取语音信号,并转化为文字;将文字与设备终端语音唤醒库中的唤醒词进行匹配,若文字与唤醒词匹配成功,则使用语音活动端点检测技术VAD对所述语音信号进行分离;对分离后的语音信号进行预处理;对预处理后的语音信号提取各个声纹特征,包括:CQCC特征、MFCC特征、LPCC特征、IMFCC特征和频率特征;对各个声纹特征逐一串行合并,得到融合声纹特征;将所述融合声纹特征输入至结合注意力机制和MFM激活函数的ResNet网络进行训练,得到训练好的语音识别模型;利用训练好的语音识别模型检测语音攻击。本发明的有益效果:可以有效检测并防御恶意语音欺诈攻击设备终端,显著提高了终端可用性。

发明专利

CN202110249305.6

2021-03-08

CN112927694A

2021-06-08

G10L15/22(2006.01)

中国地质大学(武汉)

宋军;张芷馨;刘欢;胡祎伟;黄邑灵

430000 湖北省武汉市洪山区鲁磨路388号

武汉知产时代知识产权代理有限公司

彭建怡

湖北;42

1.一种基于融合声纹特征的语音指令合法性判别方法,其特征在于:包括以下步骤: S101:设备终端获取语音信号,并将所述语音信号转化为文字; S102:将文字与设备终端语音唤醒库中的唤醒词进行匹配,若文字与唤醒词匹配成功,则进入步骤S103,否则流程结束; S103:使用语音活动端点检测技术VAD对所述语音信号进行分离,得到分离后的语音信号; S104:对分离后的语音信号进行预处理,得到预处理后的语音信号; S105:对预处理后的语音信号提取各个声纹特征,包括:语音段常数Q变换倒谱系数CQCC特征、梅尔倒谱系数MFCC特征、语音段线性预测倒谱系数LPCC特征、语音段IMFCC特征和频率特征; S106:对各个声纹特征逐一串行合并,得到融合声纹特征; S107:将所述融合声纹特征输入至结合注意力机制和MFM激活函数的ResNet网络进行训练,得到训练好的语音识别模型; S108:利用训练好的语音识别模型检测语音攻击。 2.如权利要求1所述的一种基于融合声纹特征的语音指令合法性判别方法,其特征在于: 步骤S104中,对分离后的语音信号进行预处理,具体包括:预加重处理、分帧处理和加窗处理; 预加重处理,具体如式(1): y(n)=x(n)-0.97*x(n-1) (1) 式(1)中,x(n)为分离后的语音信号;y(n)为预加重后的信号; 分帧处理:将预加重信号每N个采样点组成一帧;N为预设值; 加窗处理:将每帧信号乘以窗函数,得到加窗后信号,具体如式(2): Sw(n)=y(n)×W(n) (2) 式(2)中,W(n)为窗函数,Sw(n)为加窗后信号。 3.如权利要求1所述的一种基于融合声纹特征的语音指令合法性判别方法,其特征在于:步骤S105中,提取梅尔倒谱系数MFCC特征具体过程如下: S201:对加窗后信号Sw(n)进行快速傅里叶变换,得到变换后的信号; S202:对变换后的信号进行Mel滤波,得到滤波信号; S203:计算滤波信号中每个滤波器组输出的对数能量; S204:根据对数能量,使用离散余弦变换DCT求解梅尔倒谱系数MFCC特征。 4.如权利要求1所述的一种基于融合声纹特征的语音指令合法性判别方法,其特征在于:步骤S105中,提取语音段IMFCC特征具体过程为:将步骤S202中Mel滤波替换为IMel滤波,其余过程与提取梅尔倒谱系数MFCC特征保持不变,最终得到语音段IMFCC特征。 5.如权利要求1所述的一种基于融合声纹特征的语音指令合法性判别方法,其特征在于:步骤S105中提取语音段常数Q变换倒谱系数CQCC特征,具体过程为: 对预处理后的语音信号进行CQT变换,得到CQT信号;根据CQT信号提取语音段常数Q变换倒谱系数CQCC特征,如式(3): 式(3)中,CQCC(p)为提取的语音段常数Q变换倒谱系数CQCC特征;l为均匀重新采样频率区间的标号;p=0,1,...,L-1,L为均匀重新采样频率区间总数;XCQ(l)为CQT信号。 6.如权利要求1所述的一种基于融合声纹特征的语音指令合法性判别方法,其特征在于:步骤S105中提取语音段线性预测倒谱系数LPCC特征的具体过程如下:通过语音样本获取语音预测系数;根据所述语音预测系数,进行倒谱分析,得到语音段线性预测倒谱系数LPCC特征。 7.如权利要求1所述的一种基于融合声纹特征的语音指令合法性判别方法,其特征在于:步骤S106中,对各个声纹特征进行合并前,还对其进行标准化处理;标准化如式(4)所示: 式(4)中,x′为一维的声纹特征向量;为一维的声纹特征向量均值;s2为一维的声纹特征向量标准差。
相关文献
评论
法律状态详情>>
2021-06-08公开
2021-06-08公开
相关作者
相关机构