一种语音对话处理方法和系统

引用

摘要：

本申请实施例公开一种语音对话处理方法和系统。该方法包括：获取目标语音对话数据；基于文本嵌入模型、音标嵌入模型和角色嵌入模型，分别对目标语音对话数据进行向量转化，得到文本向量表示序列、音标向量表示序列和角色向量表示序列；将文本向量表示序列、音标向量表示序列和角色向量表示序列输入训练好的语音对话编码模型，确定目标语音对话数据对应的表示向量；将表示向量输入分类模型，确定目标语音对话数据的摘要。本申请实施例公开的方法，通过在对模型进行训练的过程中融入音标、角色等信息，可以减少口语理解过程中的语义识别错误，理解对话逻辑，提高语义识别准确性。

专利类型：发明专利

申请/专利号：CN202010731224.5

申请日期：2020-07-27

公开/公告号：CN111862977A

公开/公告日：2020-10-30

主分类号：G10L15/22(2006.01)

申请/专利权人:北京嘀嘀无限科技发展有限公司

发明/设计人:徐海洋;韩堃

主申请人地址:100193 北京市海淀区东北旺路西路8号院34号楼

专利代理机构:成都七星天知识产权代理有限公司

代理人:杨永梅

国别省市代码:北京;11

权利要求：

1.一种方法，用于处于语音对话，其特征在于，所述方法包括：获取目标语音对话数据；基于文本嵌入模型、音标嵌入模型和角色嵌入模型，分别对所述目标语音对话数据进行向量转化，得到文本向量表示序列、音标向量表示序列和角色向量表示序列；将所述文本向量表示序列、所述音标向量表示序列和所述角色向量表示序列输入训练好的语音对话编码模型，确定所述目标语音对话数据对应的表示向量；将所述表示向量输入分类模型，确定所述目标语音对话数据的摘要。 2.根据权利要求1所述的方法，其特征在于，所述方法还包括：获取所述摘要的句子文本；对所述句子文本进行文法校正。 3.根据权利要求1所述的方法，其特征在于，所述语音对话编码模型通过训练过程确定，所述训练过程包括：获取样本语音对话数据；基于文本嵌入模型、音标嵌入模型和角色嵌入模型，分别对所述样本语音对话数据进行向量转化，得到文本向量表示序列、音标向量表示序列和角色向量表示序列；基于所述文本向量表示序列、所述音标向量表示序列和所述角色向量表示序列，以自监督学习的方式对语音对话编码模型进行预训练，得到预训练后的语音对话编码模型。 4.根据权利要求3所述的方法，其特征在于，所述训练过程包括：所述文本嵌入模型、所述音标嵌入模型和所述角色嵌入模型中的至少一个与所述语音对话编码模型进行联合预训练。 5.根据权利要求3所述的方法，其特征在于，所述以自监督学习的方式对语音对话编码模型进行预训练，包括：以所述文本向量表示序列、所述音标向量表示序列和所述角色向量表示序列中的至少一个的至少一部分作为标注，所述标注至少包括所述角色向量表示序列中的部分元素。 6.根据权利要求5所述的方法，其特征在于，所述标注还包括所述文本向量表示序列中的关键词。 7.根据权利要求5所述的方法，其特征在于，所述标注还包括所述文本向量表示序列体现的句子顺序。 8.根据权利要求1所述的方法，其特征在于，所述文本嵌入模型包括：词嵌入子模型，用于确定所述目标语音对话数据的词向量表示序列；位置嵌入子模型，用于确定所述目标语音对话数据的位置向量表示序列；段落嵌入子模型，用于确定所述目标语音对话数据的段落向量表示序列。 9.根据权利要求8所述的方法，其特征在于，所述文本向量表示序列通过合并所述词向量表示序列、所述位置向量表示序列和所述段落向量表示序列得到。 10.一种系统，用于处理语音对话，其特征在于，所述系统包括：获取模块，用于获取目标语音对话数据；确定模块，用于基于文本嵌入模型、音标嵌入模型和角色嵌入模型，分别对所述目标语音对话数据进行向量转化，得到文本向量表示序列、音标向量表示序列和角色向量表示序列；输入模块，用于将所述文本向量表示序列、所述音标向量表示序列和所述角色向量表示序列输入训练好的语音对话编码模型，确定所述目标语音对话数据对应的表示向量；处理模块，用于将所述表示向量输入分类模型，确定所述目标语音对话数据的摘要。 11.根据权利要求10所述的系统，其特征在于，所述处理模块还用于：获取所述摘要的句子文本；对所述句子文本进行文法校正。 12.根据权利要求10所述的系统，其特征在于，所述语音对话编码模型通过训练过程确定，所述训练过程包括：获取样本语音对话数据；基于文本嵌入模型、音标嵌入模型和角色嵌入模型，分别对所述样本语音对话数据进行向量转化，得到文本向量表示序列、音标向量表示序列和角色向量表示序列；基于所述文本向量表示序列、所述音标向量表示序列和所述角色向量表示序列，以自监督学习的方式对语音对话编码模型进行预训练，得到预训练后的语音对话编码模型。 13.根据权利要求12所述的系统，其特征在于，所述训练过程包括：所述文本嵌入模型、所述音标嵌入模型和所述角色嵌入模型中的至少一个与所述语音对话编码模型进行联合预训练。 14.根据权利要求12所述的系统，其特征在于，所述以自监督学习的方式对语音对话编码模型进行预训练，包括：以所述文本向量表示序列、所述音标向量表示序列和所述角色向量表示序列中的至少一个的至少一部分作为标注，所述标注至少包括所述角色向量表示序列中的部分元素。 15.根据权利要求14所述的系统，其特征在于，所述标注还包括所述文本向量表示序列中的关键词。 16.根据权利要求14所述的系统，其特征在于，所述标注还包括所述文本向量表示序列体现的句子顺序。 17.根据权利要求10所述的系统，其特征在于，所述文本嵌入模型包括：词嵌入子模型，用于确定所述目标语音对话数据的词向量表示序列；位置嵌入子模型，用于确定所述目标语音对话数据的位置向量表示序列；段落嵌入子模型，用于确定所述目标语音对话数据的段落向量表示序列。 18.根据权利要求17所述的系统，其特征在于，所述文本向量表示序列通过合并所述词向量表示序列、所述位置向量表示序列和所述段落向量表示序列得到。 19.一种装置，用于处理语音对话，其特征在于，包括处理器和存储设备，所述存储设备用于存储指令，当所述处理器执行指令时，实现如权利要求1-9中任一项所述的方法。 20.一种计算机可读存储介质，其特征在于，所述存储介质存储计算机指令，所述计算机指令被处理器执行时，实现如权利要求1-9中任一项所述的方法。

专利专题