一种音频处理的方法、装置、可读存储介质和电子设备
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方专利
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

专利专题

一种音频处理的方法、装置、可读存储介质和电子设备

引用
本发明实施例公开了一种音频处理的方法、装置、可读存储介质和电子设备。本发明实施例通过获取第一音频,确定所述第一音频的第一情感类别;当所述第一情感类别与所述第一音频对应的第二情感类别不同时,根据所述第二情感类别修改所述第一音频的音调,生成第二音频。通过上述方法,当第一音频中的音调影响交流效果时,通过与第一情感类别不同的第二情感类别修改第一音频中的音调,得到需要的音调,即有效的对人物的音调进行控制,提高了交流的效果。

发明专利

CN202110287746.5

2021-03-17

CN113113047A

2021-07-13

G10L25/63(2013.01)

北京大米科技有限公司

陈昌儒;张伟宇;徐培来;杨惠

100142 北京市海淀区清河安宁庄东路18号23号楼二层2223

北京睿派知识产权代理事务所(普通合伙)

刘锋%杨春晓

北京;11

1.一种音频处理的方法,其特征在于,该方法包括: 获取第一音频; 确定所述第一音频的第一情感类别; 响应于所述第一情感类别与所述第一音频对应的第二情感类别不同,根据所述第二情感类别修改所述第一音频的音调,生成第二音频。 2.如权利要求1所述的方法,其特征在于,所述第一音频对应的第二情感类别根据情感预测模型预先确定的。 3.如权利要求1所述的方法,其特征在于,所述第一音频对应的第二情感类别为预先设置的。 4.如权利要求1所述的方法,其特征在于,所述根据情感预测模型预先确定的所述第一音频对应的第二情感类别,具体包括: 将所述第一音频的起始时刻之前设定时长的历史音频输入到自动语音识别模型,输出所述历史音频对应的文本信息,其中,所述历史音频用于预测所述第一音频的第二情感类别; 将所述文本信息输入到语义分析模型,输出所述文本信息对应候选情感类别; 将所述候选情感类别与所述历史音频之前N段音频对应的历史情感类别输入到情感预测模型,输出所述第一音频对应的第二情感类别,其中,N为大于或等于1的正整数。 5.如权利要求1所述的方法,其特征在于,所述情感类别包括愉快、悲伤、平淡、厌烦、惊讶以及生气中的至少一项。 6.如权利要求1所述的方法,其特征在于,所述确定所述第一音频的第一情感类别,具体包括: 根据高斯混合模型GMM或者深度神经网络模型,确定所述第一音频的第一情感类别。 7.如权利要求1所述的方法,其特征在于,所述根据所述第二情感类别修改所述第一音频的音调,生成第二音频,具体包括: 通过预先训练的情感转换模型,将所述第一音频的音调从所述第一情感类别修改为所述第二情感类别,生成第二音频,其中,所述情感转换模型为高斯混合模型GMM或者深度神经网络模型,所述第二音频的音调为第二情感类别。 8.如权利要求7所述的方法,其特征在于,所述通过预先训练的情感转换模型,将所述第一音频的音调从所述第一情感类别修改为所述第二情感类别,生成第二音频,具体包括: 确定所述第一音频的至少一个第一情感特征; 根据所述预先训练的情感转换模型将所述至少一个第一情感特征转换为至少一个第二情感特征; 将所述至少一个第二情感特征按照设定方法进行合成,生成第二音频。 9.如权利要求8所述的方法,其特征在于,所述设定方法为波形拼接、以及使用长短期记忆网络LSTM、循环神经网络RNN、Wavenet、或者Fastpitch进行参数合成。 10.如权利要求8所述的方法,其特征在于,所述第一情感特征和所述第二情感特征为矩阵参数。 11.如权利要求8所述的方法,其特征在于,所述情感转换模型的训练过程包括: 获取历史源音频以及历史目标音频,其中,历史源音频的音调与所述历史目标音频的音调的情感类别不同; 根据所述历史源音频确定至少一个第一历史情感特征,以及根据所述历史目标音频确定至少一个第二历史情感特征; 根据所述第一历史情感特征与所述第二历史情感特征训练所述情感转换模型。 12.如权利要求4所述的方法,其特征在于,所述自动语音识别模型包括神经网络模型或者端到端模型。 13.如权利要求4所述的方法,其特征在于,所述语义分析模型包括XGBoost模型、聚类模型或者端到端模型。 14.如权利要求4所述的方法,其特征在于,所述情感预测模型为隐马尔可夫HMM模型。 15.一种音频处理的装置,其特征在于,该装置包括: 获取单元,用于获取第一音频; 确定单元,用于确定所述第一音频的第一情感类别; 处理单元,响应于所述第一情感类别与所述第一音频对应的第二情感类别不同,用于根据所述第二情感类别修改所述第一音频的音调,生成第二音频。 16.一种计算机可读存储介质,其上存储计算机程序指令,其特征在于,所述计算机程序指令在被处理器执行时实现如权利要求1-14中任一项所述的方法。 17.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被处理器执行以实现如权利要求1-14任一项所述的方法。
相关文献
评论
法律状态详情>>
2021-07-13公开
2021-07-13公开
相关作者
相关机构