语音分析方法、装置、计算机设备和存储介质
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方专利
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

专利专题

语音分析方法、装置、计算机设备和存储介质

引用
本申请涉及一种语音分析方法、装置、计算机设备和存储介质。所述方法包括:获取包括多个语音帧的语音序列;将各语音帧输入多任务语音分析模型中的共享网络层,提取分别对应于各语音帧的共享中间特征;将共享中间特征分别并行地输入至多任务语音分析模型中的各任务私有网络层;不同任务私有网络层对应于不同的语音分析任务;通过与语音分析任务中的句级任务对应的任务私有网络层,根据各语音帧的共享中间特征生成句级特征,并对句级特征进行语音分析,输出与句级任务对应的分析结果;通过与语音分析任务中的帧级任务对应的任务私有网络层,对共享中间特征进行语音分析,输出与帧级任务对应的分析结果。采用本方法能够提高语音分析准确性。

发明专利

CN202010727222.9

2020-07-27

CN111599382A

2020-08-28

G10L25/51(2013.01)

深圳市声扬科技有限公司

陈东鹏

518000 广东省深圳市前海深港合作区前湾一路1号A栋201室(入驻深圳市前海商务秘书有限公司)

广州华进联合专利商标代理有限公司

黄晶晶

广东;44

1.一种语音分析方法,其特征在于,所述方法包括: 获取语音序列;所述语音序列中包括多个语音帧; 将各所述语音帧输入预先训练的多任务语音分析模型中的共享网络层,提取分别对应于各所述语音帧的共享中间特征;所述多任务语音分析模型,用于对所述语音序列执行多个语音分析任务; 将所述共享中间特征分别并行地输入至所述多任务语音分析模型中的各任务私有网络层;不同所述任务私有网络层对应于不同的所述语音分析任务; 通过与所述语音分析任务中的句级任务对应的任务私有网络层,根据各所述语音帧的所述共享中间特征生成句级特征,并对所述句级特征进行语音分析,输出与所述句级任务对应的分析结果; 通过与所述语音分析任务中的帧级任务对应的任务私有网络层,对所述共享中间特征进行语音分析,输出与所述帧级任务对应的分析结果。 2.根据权利要求1所述的方法,其特征在于,所述语音分析任务包括语音活动检测任务; 在所述将所述共享中间特征分别并行地输入至所述多任务语音分析模型中的各任务私有网络层之前,所述方法还包括: 将各所述语音帧的共享中间特征,输入至所述语音活动检测任务所对应的任务私有网络层,从所述语音帧中检测出属于人声的语音帧; 所述将所述共享中间特征分别并行地输入至多任务语音分析模型中的各任务私有网络层包括: 将所述属于人声的语音帧的所述共享中间特征,分别并行地输入至所述多任务语音分析模型中的各任务私有网络层。 3.根据权利要求1或2所述的方法,其特征在于,所述句级任务对应的任务私有网络层中包括句级池化层; 所述通过与所述语音分析任务中的句级任务对应的任务私有网络层,根据各所述语音帧的所述共享中间特征生成句级特征,并对所述句级特征进行语音分析,输出与所述句级任务对应的分析结果包括: 通过与所述语音分析任务中的句级任务对应的任务私有网络层中的所述句级池化层,对各所述语音帧的所述共享中间特征进行池化处理,生成相应的句级特征;所述句级特征,用于表征相应共享中间特征所对应的句子的特征;所述句子为所述相应共享中间特征所提取自的所述语音帧所属于的句子; 通过所述句级任务对应的任务私有网络层中所述句级池化层之后的网络层,对所述句级池化层输出的所述句级特征进行分析,输出所述句级任务对应的分析结果。 4.根据权利要求3所述的方法,其特征在于,所述句级任务包括句级预测任务和句级分类任务中的至少一种; 所述通过所述句级任务对应的任务私有网络层中所述句级池化层之后的网络层,对所述句级池化层输出的所述句级特征进行分析,输出所述句级任务对应的分析结果包括: 当所述句级任务包括句级预测任务时,则通过所述句级预测任务对应的任务私有网络层中的句级池化层之后的网络层,对所述句级池化层输出的所述句级特征进行预测处理,输出所述句级预测任务针对所述语音序列的预测结果; 当所述句级任务包括句级分类任务时,则通过所述句级分类任务对应的任务私有网络层中的句级池化层之后的网络层,对所述句级池化层输出的所述句级特征进行分类处理,输出所述句级分类任务针对所述语音序列的分类结果。 5.根据权利要求4所述的方法,其特征在于,所述句级预测任务包括年龄预测任务; 所述通过所述句级预测任务对应的任务私有网络层中的句级池化层之后的网络层,对所述句级池化层输出的所述句级特征进行预测处理,输出所述句级预测任务针对所述语音序列的预测结果包括: 通过所述年龄预测任务对应的任务私有网络层中的句级池化层之后的网络层,对所述句级池化层输出的所述句级特征进行年龄预测处理,输出所述语音帧所属于的句子对应的发声者的年龄。 6.根据权利要求4所述的方法,其特征在于,所述句级分类任务包括语种识别任务;所述通过所述句级分类任务对应的任务私有网络层中的句级池化层之后的网络层,对所述句级池化层输出的所述句级特征进行分类处理,输出所述句级分类任务针对所述语音序列的分类结果包括: 通过所述语种识别任务对应的任务私有网络层中的句级池化层之后的网络层,对所述句级池化层输出的所述句级特征进行语种分类处理,输出所述语音帧所属于的句子对应的语种。 7.根据权利要求4所述的方法,其特征在于,所述句级分类任务包括性别识别任务; 所述通过所述句级分类任务对应的任务私有网络层中的句级池化层之后的网络层,对所述句级池化层输出的所述句级特征进行分类处理,输出所述句级分类任务针对所述语音序列的分类结果包括: 通过所述性别识别任务对应的任务私有网络层中的句级池化层之后的网络层,对所述句级池化层输出的所述句级特征进行性别分类处理,输出所述语音帧所属于的句子对应的发声者的性别。 8.根据权利要求1所述的方法,其特征在于,所述帧级任务包括帧级预测任务和帧级分类任务中的至少一种; 所述通过与所述语音分析任务中的帧级任务对应的任务私有网络层,对所述共享中间特征进行语音分析,输出与所述帧级任务对应的分析结果包括: 当所述帧级任务包括所述帧级预测任务时,通过与所述帧级预测任务对应的任务私有网络层,对各所述语音帧的所述共享中间特征进行预测处理,输出所述帧级预测任务针对所述语音序列的预测结果; 当所述帧级任务包括帧级分类任务时,通过与所述帧级分类任务对应的任务私有网络层,对所述共享中间特征进行分类处理,输出所述帧级分类任务针对所述语音序列的分类结果。 9.根据权利要求8所述的方法,其特征在于,所述帧级预测任务包括语音活动检测任务; 所述通过与所述语音分析任务中的帧级任务对应的任务私有网络层,对所述共享中间特征进行语音分析,输出与所述帧级任务对应的分析结果包括: 通过与所述语音分析任务中的语音活动检测任务对应的任务私有网络层,对所述共享中间特征进行语音活动概率预测处理,输出各所述语音帧为活动语音的概率。 10.根据权利要求8所述的方法,其特征在于,所述帧级分类任务包括语音识别任务; 所述通过与所述语音分析任务中的帧级任务对应的任务私有网络层,对所述共享中间特征进行语音分析,输出与所述帧级任务对应的分析结果包括: 通过与所述语音分析任务中的语音识别任务对应的任务私有网络层,对所述共享中间特征进行语音识别处理,输出各所述语音帧对应的语音内容。 11.一种语音分析装置,其特征在于,所述装置包括: 共享特征提取模块,用于获取语音序列;所述语音序列中包括多个语音帧;将各所述语音帧输入预先训练的多任务语音分析模型中的共享网络层,提取分别对应于各所述语音帧的共享中间特征;所述多任务语音分析模型,用于对所述语音序列执行多个语音分析任务; 共享特征提取模块还用于将所述共享中间特征分别并行地输入至所述多任务语音分析模型中的各任务私有网络层;不同所述任务私有网络层对应于不同的所述语音分析任务; 句级语音分析模块,用于通过与所述语音分析任务中的句级任务对应的任务私有网络层,根据各所述语音帧的所述共享中间特征生成句级特征,并对所述句级特征进行语音分析,输出与所述句级任务对应的分析结果; 帧级语音分析模块,用于通过与所述语音分析任务中的帧级任务对应的任务私有网络层,对所述共享中间特征进行语音分析,输出与所述帧级任务对应的分析结果。 12.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至10中任一项所述的方法的步骤。 13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。
相关文献
评论
法律状态详情>>
2020-08-28公开
2020-08-28公开
2020-08-28公开
相关作者
相关机构