一套基于自注意力的实时管制语音质量计量方法及系统
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方专利
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

专利专题

一套基于自注意力的实时管制语音质量计量方法及系统

引用
本发明公开了一套基于自注意力的实时管制语音质量计量方法及系统,包括获取实时空管语音数据并生成语音信息帧;检测所述语音信息帧丢弃其中的无声信息帧,生成有声的长语音信息帧;将所述长语音信息帧进行梅尔图谱转换,注意力提取,特征融合,得到预测mos值,解决了语音评价耗时长,只能离线进行的问题,同时实时接收的过程中也能去除无声的部分,提取影响语音质量的部分,不仅避免了无声段语音对评价的影响,还提高了语音评价的客观性。

发明专利

CN202310386970.9

2023-04-12

CN116092482A

2023-05-09

G10L15/01(2013.01)

中国民用航空飞行学院

潘卫军;王泆棣;张坚;王梓璇;蒋培元;蒋倩兰;王玄;王润东;左青海;栾天;韩博源

618307 四川省德阳市广汉市三水镇高店村

四川力久律师事务所

韩洋

四川;51

1.一套基于自注意力的实时管制语音质量计量方法,其特征在于,包括: S1、获取实时空管语音数据,打上时间标签并封装,再结合管制数据二次封装,生成语音信息帧; S2、检测所述语音信息帧,分为无声信息帧队列和有声信息帧队列并预定时间长度,当任意一个列队插入所述语音信息帧的长度超过所述预定时间长度时,所述无声信息帧队列和所述有声信息帧队列中的所述语音信息帧同时出队,丢弃所述无声信息帧队列出队的信息帧,对出队的所述有声信息帧队列的信息帧进行检测,合并其中大于0.2s的信息,生成长语音信息帧; S3、通过自注意力神经网络处理所述长语音信息帧并获得预测的mos值,所述神经网络包括mel谱听觉滤波层、自适应卷积神经网络层、transformer注意力层、自注意力池化层。 2.如权利要求1所述的一套基于自注意力的实时管制语音质量计量方法,其特征在于,所述S2中,生成所述长语音信息帧,以所述有声信息帧队列中队头的语音信息帧的起始时间为起始时间,以队尾的语音信息帧的结束时间为结束时间,所述管制数据可以自定义时间与所述长语音信息帧合并。 3.如权利要求1所述的一套基于自注意力的实时管制语音质量计量方法,其特征在于,所述mel谱听觉滤波层是将所述长语音信息帧转换为功率谱,再与梅尔滤波器组点乘,将功率映射为梅尔频率并线性分布,所述映射使用如下公式: , 其中,k表示输入频率,用于计算每个梅尔滤波器的频率相应,m代表滤波器序号,f(m-1)和f(m),f(m+1)分别对应第m个滤波器的起始点、中间点和结束点,点乘后生成梅尔图谱。 4.如权利要求3所述的一套基于自注意力的实时管制语音质量计量方法,其特征在于,所述长语音信息帧转化为功率谱,包括,差分增强所述长语音信息帧中的高频分量并得到信息帧,切分及加窗处理所述信息帧,再使用傅里叶变换将处理后信息帧转换为功率谱。 5.如权利要求1所述的一套基于自注意力的实时管制语音质量计量方法,其特征在于,所述自适应卷积神经网络层包含卷积层和自适应化池,是将梅尔图谱重新采样,再将卷积层中卷积核卷积后的数据合并为张量,再归一化为特征向量。 6.如权利要求1所述的一套基于自注意力的实时管制语音质量计量方法,其特征在于,所述transformer注意力层,是应用多头注意力模型对特征向量进行embedding作时序处理,应用学习矩阵转换处理后的向量,应用计算公式对转换后的向量进行注意力权重计算,所述计算公式如下: , 其中为K矩阵的转置,/>为所述特征向量的长度,/>为权重,将所述权重与所述特征向量点乘得到注意力向量/>。 7.如权利要求6所述的一套基于自注意力的实时管制语音质量计量方法,其特征在于,所述注意力向量在提取完成后,应用多头注意力模型计算,得到多头注意力向量,经过layernorm归一化处理得到/>,再经过gelu激活,得到最终注意力向量/>,所述计算公式如下: ,其中concat为向量连接操作,/>为可学习的多头注意力权重矩阵; 所述gelu激活公式如下: 。 8.如权利要求1所述的一套基于自注意力的实时管制语音质量计量方法,其特征在于,所述自注意力池化层,是通过前馈网络压缩注意力向量的长度,打码遮蔽所述长度外的向量部分,归一化打码遮蔽后的向量,将其与最终注意力向量进行点积,点积后的向量再通过全连接层,取得预测mos值向量。 9.如权利要求1所述的一套基于自注意力的实时管制语音质量计量方法,其特征在于,所述mos值与对应的长语音信息帧连接成链路,生成实时计量数据。 10.一套基于自注意力的实时管制语音质量计量系统,其特征在于,包括处理器、网络接口和存储器,所述处理器、所述网络接口和所述存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-9任一项所述的一套基于自注意力的实时管制语音质量计量方法。
相关文献
评论
法律状态详情>>
相关作者
相关机构