实时变声方法及装置

引用

摘要：

本发明公开了一种实时变声方法及装置，所述方法包括：接收源说话人音频数据；从所述源说话人音频数据中提取语音识别声学特征，并利用所述语音识别声学特征得到语音识别的隐层特征；将所述隐层特征输入预先构建的对应特定目标说话人的音色转换模型，得到特定目标说话人的语音合成声学特征；利用所述特定目标说话人的语音合成声学特征生成特定目标说话人音频信号。利用本发明，可以实现低响应延迟的实时变声，并得到较好的变声效果。

专利类型：发明专利

申请/专利号：CN201910091188.8

申请日期：2019-01-30

公开/公告号：CN111508511A

公开/公告日：2020-08-07

主分类号：G10L21/013(2013.01)

申请/专利权人:北京搜狗科技发展有限公司

发明/设计人:刘恺

主申请人地址:100084 北京市海淀区中关村东路1号院9号楼搜狐网络大厦9层01房间

专利代理机构:北京华圣典睿知识产权代理有限公司

代理人:赵景平

国别省市代码:北京;11

权利要求：

1.一种实时变声方法，其特征在于，所述方法包括：接收源说话人音频数据；从所述源说话人音频数据中提取语音识别声学特征，并利用所述语音识别声学特征得到语音识别的隐层特征；将所述隐层特征输入预先构建的对应特定目标说话人的音色转换模型，得到特定目标说话人的语音合成声学特征；利用所述特定目标说话人的语音合成声学特征生成特定目标说话人音频信号。 2.根据权利要求1所述的方法，其特征在于，所述方法还包括按照以下方式构建所述对应特定目标说话人的音色转换模型：收集特定目标说话人的音频数据；利用所述特定目标说话人的音频数据对预先基于多个说话人的音频数据构建的通用变声模型进行自适应训练，得到对应所述特定目标说话人的音色转换模型。 3.根据权利要求2所述的方法，其特征在于，所述方法还包括：基于多个说话人的音频数据构建通用变声模型，具体包括：收集多个说话人的音频数据作为训练数据；从所述训练数据中提取语音识别声学特征及语音合成声学特征，并利用所述语音识别声学特征得到语音识别的隐层特征；利用所述隐层特征及所述语音合成声学特征，训练得到通用变声模型。 4.根据权利要求1所述的方法，其特征在于，所述利用所述语音识别声学特征得到语音识别的隐层特征包括：将所述语音识别声学特征输入语音识别模型，得到隐层特征。 5.根据权利要求4所述的方法，其特征在于，所述语音识别模型为神经网络模型。 6.根据权利要求1所述的方法，其特征在于，所述语音识别声学特征包括以下任意一项或多项：梅尔频率倒谱系数、感知线性预测参数。 7.根据权利要求1所述的方法，其特征在于，所述语音合成声学特征包括以下任意一项或多项：清浊特征、基频特征、频谱特征、非周期成分。 8.一种实时变声装置，其特征在于，所述装置包括：接收模块，用于接收源说话人音频数据；特征获取模块，用于从所述源说话人音频数据中提取语音识别声学特征，并利用所述语音识别声学特征得到语音识别的隐层特征；特征转换模块，用于将所述隐层特征输入预先构建的对应特定目标说话人的音色转换模型，得到特定目标说话人的语音合成声学特征；语音合成模块，用于利用所述特定目标说话人的语音合成声学特征生成特定目标说话人音频信号。 9.一种电子设备，其特征在于，包括：一个或多个处理器、存储器；所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，以实现如权利要求1至7任一项所述的方法。 10.一种可读存储介质，其上存储有指令，所述指令被执行以实现如权利要求1至7任一项所述的方法。

专利专题