一种营业厅环境下端到端的情感语音合成方法

引用

摘要：

本发明提供了一种营业厅环境下端到端的情感语音合成方法，涉及多人环境下带有情感的语音合成领域，包括(1)营业厅环境下对用户语音输入进行情感识别，构建应答语音的情感特征向量；(2)构建文本编码器，根据情感特征对应答文本进行编码；(3)构建注意力机制模型，提取数据的上下文特征；(4)构建解码器，根据上下文特征循环预测输出的声谱图；(5)对预测的声谱图进行优化，提高合成语音的质量；(6)对神经网络框架进行训练。本发明能够实现营业厅环境下根据用户的情绪快速而且具有针对性地合成对应情感的语音，实现与用户流利而富有情感的对话，提高用户体验。

专利类型：发明专利

申请/专利号：CN202110174057.3

申请日期：2021-02-07

公开/公告号：CN112951201A

公开/公告日：2021-06-11

主分类号：G10L13/047(2013.01)

申请/专利权人:广东电网有限责任公司广州供电局

发明/设计人:李韫莛;梁东贵;曾宪毅;李紫楠;梁哲辉;陈敏;顾安朋;熊伟;陈光辉;李莹

主申请人地址:510000 广东省广州市天河区天河南二路2号

专利代理机构:合肥兆信知识产权代理事务所(普通合伙)

代理人:孟祥龙

国别省市代码:广东;44

权利要求：

1.一种营业厅环境下端到端的情感语音合成方法，其特征在于包括以下步骤： (1)营业厅环境下对预处理后的用户语音输入进行情感识别，构建应答语音的情感特征向量； (2)构建文本编码器，根据情感特征对应答文本进行编码； (3)构建注意力机制模型，提取数据的上下文特征； (4)构建解码器，根据上下文特征循环预测声谱图；(5)对预测的声谱图进行优化，提高合成语音的质量； (6)对神经网络框架进行训练。 2.如权利要求1所述的一种电力营业厅环境下端到端的情感语音合成方法，其特征在于，步骤(1)中，营业厅环境下对预处理后的用户语音输入进行情感识别并构建应答语音的情感特征向量的具体方法为：对收集的语音进行预处理，通过声纹识别模块去噪后提取用户的语音；从用户语音中提取情感特征，生成衡量用户情绪的情感特征向量，该情感特征向量处于从多个维度衡量情绪的情感特征空间中；将生成的情感特征向量映射为适合应答语音的情感特征向量。 3.如权利要求1所述的一种电力营业厅环境下端到端的情感语音合成方法，其特征在于，步骤(2)中，构建文本编码器，根据情感特征对应答文本进行编码的具体方法为：对于问答系统生成的应答文本，通过词嵌入算法将文本映射为字符序列，即把文本转换为词向量；根据应答语音的情感特征向量重编码该词向量，生成新的字符序列，即通过情感特征将其更改为更符合情绪特点但表达的意思不变的文本。 4.如权利要求1所述的一种电力营业厅环境下端到端的情感语音合成方法，其特征在于，步骤(3)中，构建注意力机制模型，提取数据的上下文特征的具体方法为：对常规语音合成的注意力机制模型进行修改，引入计算情感距离的函数；当两个词语所附带的情绪在情感特征空间中距离较近时，其情感距离接近0；当两个词在两个词语所附带的情绪在情感特征空间中距离较远时，其情感距离接近负无穷。 5.如权利要求1所述的一种电力营业厅环境下端到端的情感语音合成方法，其特征在于，步骤(4)中，构建解码器，根据上下文特征循环预测声谱图的具体方法为：将编码器生成的隐状态序列或上一轮预测的声谱图与注意力机制模型生成的上下文信息拼接后由解码器循环预测声谱图；在每次迭代中循环预测解码结束的概率,值为”0,1”，若概率大于等于设定的阈值，则解码结束；若小于设定的阈值则继续进入下一轮循环进行解码。 6.如权利要求1所述的一种电力营业厅环境下端到端的情感语音合成方法，其特征在于，步骤(6)中，对神经网络框架进行训练的具体方法为：使用目标函数进行优化，其中，第一项是真实声谱与解码器预测声谱之间的误差；第二项是真实声谱与后处理残差网络间的误差；第三项是目标情感特征向量与生成的情感特征向量间的误差；为样本数，为正则化参数，为神经网络中的参数，为参数的数量，第四项是神经网络的训练误差，训练的目的是最小化损失函数，达到一定轮次直到收敛可停止训练。 7.如权利要求1所述一种营业厅环境下端到端的情感语音合成方法，其特征在于训练完成后的模型能在一定的时间的合成情感语音，从而实现与用户流利地进行对话；能够通过调节判断解码是否结束的阈值来调节情感语音合成的速度；根据用户的情绪动态调节阈值，达到自适应合成情感语音的效果。

专利专题