一种语音特征处理方法、装置、电子设备及存储介质

引用

摘要：

本申请实施例提供一种语音特征处理方法、装置、电子设备及存储介质，其中方法包括：从带噪语音的语音特征中去除噪音的语音特征，得到纯净语音特征估计；对所述纯净语音特征估计进行编码处理，得到第一语音特征编码信息，以及对所述带噪语音的语音特征进行编码处理，得到第二语音特征编码信息；根据所述第一语音特征编码信息以及所述第二语音特征编码信息，得到用于解码的目标语音特征编码信息。本申请实施例可针对带噪语音，准确的形成语音特征编码信息，为提升语音识别的准确性提供基础。

专利类型：发明专利

申请/专利号：CN202110290322.4

申请日期：2021-03-18

公开/公告号：CN112735397A

公开/公告日：2021-04-30

主分类号：G10L15/20(2006.01)

申请/专利权人:北京世纪好未来教育科技有限公司

发明/设计人:谷悦;杨嵩;王莎

主申请人地址:100144 北京市海淀区中关村大街32号蓝天和盛大厦1702-03室

专利代理机构:上海知锦知识产权代理事务所(特殊普通合伙)

代理人:王立娜

国别省市代码:北京;11

权利要求：

1.一种语音特征处理方法，其特征在于，包括：从带噪语音的语音特征中去除噪音的语音特征，得到纯净语音特征估计；对所述纯净语音特征估计进行编码处理，得到第一语音特征编码信息，以及对所述带噪语音的语音特征进行编码处理，得到第二语音特征编码信息；根据所述第一语音特征编码信息以及所述第二语音特征编码信息，得到用于解码的目标语音特征编码信息。 2.根据权利要求1所述的语音特征处理方法，其特征在于，所述根据所述第一语音特征编码信息以及所述第二语音特征编码信息，得到用于解码的目标语音特征编码信息包括：确定混合系数；根据所述混合系数，将第一语音特征编码信息与第二语音特征编码信息进行混合，得到所述目标语音特征编码信息。 3.根据权利要求2所述的语音特征处理方法，其特征在于，所述确定混合系数包括：根据所述第一语音特征编码信息与第二语音特征编码信息，确定所述第一语音特征编码信息与第二语音特征编码信息相互混合程度的混合系数。 4.根据权利要求3所述的语音特征处理方法，其特征在于，所述根据所述第一语音特征编码信息与第二语音特征编码信息，确定所述第一语音特征编码信息与第二语音特征编码信息相互混合程度的混合系数包括：将所述第一语音特征编码信息和第二语音特征编码信息输入神经网络，得到所述神经网络输出的所述混合系数；其中，所述神经网络以输出结果与混合系数标签的误差最小化为训练目标而训练得到，所述混合系数标签为输入所述神经网络的用于训练的第一语音特征编码信息样本和第二语音特征编码信息样本预先标记的混合系数。 5.根据权利要求4所述的语音特征处理方法，其特征在于，所述混合系数为0至1的数值范围。 6.根据权利要求2所述的语音特征处理方法，其特征在于，所述根据所述混合系数，将第一语音特征编码信息与第二语音特征编码信息进行混合，得到所述目标语音特征编码信息包括：以混合系数为权重，对第一语音特征编码信息进行加权处理，得到第一语音特征编码信息对应的加权处理结果，及，以设定值与混合系数的差值为权重，对第二语音特征编码信息进行加权处理，得到第二语音特征编码信息对应的加权处理结果；将第一语音特征编码信息和第二语音特征编码信息对应的加权处理结果相加，得到所述目标语音特征编码信息。 7.根据权利要求1所述的语音特征处理方法，其特征在于，所述从带噪语音的语音特征中去除噪音的语音特征，得到纯净语音特征估计包括：将带噪语音的语音特征输入语音增强模型，以使所述语音增强模型对带噪语音的语音特征进行语音增强处理，得到所述纯净语音特征估计。 8.根据权利要求7所述的语音特征处理方法，其特征在于，所述语音增强模型以输出的带噪语音样本的纯净语音特征估计，与带噪语音样本的实际纯净语音特征的误差最小化为训练目标而训练得到。 9.根据权利要求1所述的语音特征处理方法，其特征在于，还包括：根据所述目标语音特征编码信息，预测当前所有语音建模单元的后验概率，得出声学模型的输出结果。 10.根据权利要求9所述的语音特征处理方法，其特征在于，所述根据所述目标语音特征编码信息，预测当前所有语音建模单元的后验概率，得出声学模型的输出结果包括：将所述目标语音特征编码信息输入声学模型的解码器，以得到所述解码器预测的当前所有语音建模单元的后验概率，所述后验概率作为声学模型的输出结果。 11.根据权利要求10所述的语音特征处理方法，其特征在于，所述解码器以输出的带噪语音样本的各句子部分分别属于各语音建模单元的概率，趋近于真实概率为训练目标而训练得到。 12.一种语音特征处理装置，其特征在于，包括：噪音去除模块，用于从带噪语音的语音特征中去除噪音的语音特征，得到纯净语音特征估计；编码处理模块，用于对所述纯净语音特征估计进行编码处理，得到第一语音特征编码信息，以及对所述带噪语音的语音特征进行编码处理，得到第二语音特征编码信息；目标编码信息得到模块，用于根据所述第一语音特征编码信息以及所述第二语音特征编码信息，得到用于解码的目标语音特征编码信息。 13.根据权利要求12所述的语音特征处理装置，其特征在于，所述目标编码信息得到模块，用于根据所述第一语音特征编码信息以及所述第二语音特征编码信息，得到用于解码的目标语音特征编码信息，包括：确定混合系数；根据所述混合系数，将第一语音特征编码信息与第二语音特征编码信息进行混合，得到所述目标语音特征编码信息。 14.根据权利要求13所述的语音特征处理装置，其特征在于，所述目标编码信息得到模块，用于确定混合系数包括：根据所述第一语音特征编码信息与第二语音特征编码信息，确定所述第一语音特征编码信息与第二语音特征编码信息相互混合程度的混合系数。 15.根据权利要求14所述的语音特征处理装置，其特征在于，所述噪音去除模块为语音增强模型，所述编码处理模块为声学模型中的编码器，所述目标编码信息得到模块为声学模型中设置的神经网络和混合层，其中，所述神经网络用于确定混合系数，所述混合层用于根据所述混合系数，将第一语音特征编码信息与第二语音特征编码信息进行混合，得到所述目标语音特征编码信息。 16.根据权利要求15所述的语音特征处理装置，其特征在于，还包括：第一训练模块，用于以神经网络的输出结果与混合系数标签的误差最小化为训练目标，训练所述神经网络，所述混合系数标签为输入所述神经网络的用于训练的第一语音特征编码信息样本和第二语音特征编码信息样本预先标记的混合系数；和/或，第二训练模块，用于以语音增强模型输出的带噪语音样本的纯净语音特征估计，与带噪语音样本的实际纯净语音特征的误差最小化为训练目标，训练语音增强模型。 17.根据权利要求15或16所述的语音特征处理装置，其特征在于，还包括：概率预测模块，用于根据所述目标语音特征编码信息，预测当前所有语音建模单元的后验概率，得出声学模型的输出结果。 18.根据权利要求17所述的语音特征处理装置，其特征在于，所述概率预测模块为声学模型中的解码器；所述语音特征处理装置还包括：第三训练模块，用于以解码器输出的带噪语音样本的各句子部分分别属于各语音建模单元的概率，趋近于真实概率为训练目标，训练解码器。 19.一种电子设备，其特征在于，包括至少一个存储器和至少一个处理器，所述存储器存储一条或多条计算机可执行指令，所述处理器调用所述一条或多条计算机可执行指令，以执行实现如权利要求1-11任一项所述的语音特征处理方法。 20.一种存储介质，其特征在于，所述存储介质存储一条或多条计算机可执行指令，所述一条或多条计算机可执行指令被执行时实现如权利要求1-11任一项所述的语音特征处理方法。

专利专题