一种信息处理的方法、装置、设备和计算机可读存储介质

引用

摘要：

本申请提供一种信息处理的方法、装置、设备和计算机可读存储介质，该方法包括：识别接收的语音指令对应的第一文本信息；通过训练好的第一AI模型和训练好的第二AI模型分别对第一文本信息进行语义理解，得到对应的第一理解结果和第二理解结果；至少基于第一理解结果和第二理解结果，响应语音指令。如此，通过利用训练好的第一AI模型和训练好的第二AI模型同时对第一文本信息进行语义理解，获得两种理解结果，并结合至少两种理解结果对语音指令进行响应，实现了至少两种AI模型的语义理解优势的结合，从而能够快速理解简单文本信息的语义，减少文本信息语义理解的错误，提升车载对话系统认知理解能力。

专利类型：发明专利

申请/专利号：CN202311493631.7

申请日期：2023-11-09

公开/公告号：CN117456990A

公开/公告日：2024-01-26

主分类号：G10L15/18(2013.01)

申请/专利权人:重庆长安汽车股份有限公司

发明/设计人:唐乾斌;贺刚;王永亮;任伟

主申请人地址:400023 重庆市江北区建新东路260号

专利代理机构:北京派特恩知识产权代理有限公司

代理人:肖佳敏%徐川

国别省市代码:重庆;50

权利要求：

1.一种信息处理的方法，其特征在于，包括：识别接收的语音指令的第一文本信息；利用训练好的第一AI模型对所述第一文本信息进行语义理解，得到第一理解结果；以及利用训练好的第二AI模型对所述第一文本信息进行语义理解，得到第二理解结果；所述第一AI模型与所述第二AI模型不同；所述第一理解结果和第二理解结果均包括所述第一文本信息所表示的语义；所述第一AI模型的训练数据类型多于所述第二AI模型的训练数据类型；所述第一AI模型的至少一个结构参数的值大于所述第二AI模型的相应结构参数的值；至少基于所述第一理解结果和所述第二理解结果，响应所述语音指令。 2.根据权利要求1所述的方法，其特征在于，所述第一理解结果包括表征所述第二理解结果正确性的子结果，所述子结果为所述第一文本信息对应的第一问题类型；所述第一问题类型包括第一特定类型和第二特定类型，所述第一特定类型指示所述第二理解结果错误，所述第二特定类型指示所述第二理解结果正确。 3.根据权利要求2所述的方法，其特征在于，所述至少基于所述第一理解结果和所述第二理解结果，响应所述语音指令，包括：若在所述第一问题类型为所述第一特定类型的情况下已基于所述第二理解结果生成第一执行指令，输出第一提示信息；其中，所述第一执行指令用于控制相应对象的工作状态，所述第一提示信息用于提示所述第一执行指令的执行结果是基于错误理解所述语音指令的语义而生成的。 4.根据权利要求3所述的方法，其特征在于，所述至少基于所述第一理解结果和所述第二理解结果，响应所述语音指令，还包括：若所述第一问题类型为所述第一特定类型且未基于所述第二理解结果生成所述第一执行指令，禁止所述第一执行指令的生成，并输出第二提示信息；所述第二提示信息用于提示用户语音指令正在解析中。 5.根据权利要求3或4所述的方法，其特征在于，所述子结果还包括所述第一文本信息的结构化自然语言理解结果，所述方法还包括：若确定检测到所述结构化自然语言理解结果，基于所述结构化自然语言理解结果生成第二执行指令。 6.根据权利要求5所述的方法，其特征在于，所述方法还包括：获取基于所述第二执行指令的执行结果得到的第一文本反馈信息；基于所述第一文本反馈信息，输出语义理解纠正信息和/或第一语音反馈信息。 7.根据权利要求2所述的方法，其特征在于，所述至少基于所述第一理解结果和所述第二理解结果，响应所述语音指令，包括：若所述第一问题类型为所述第二特定类型，基于所述第二理解结果响应所述语音指令。 8.根据权利要求7所述的方法，其特征在于，所述基于所述第二理解结果响应所述语音指令，包括：获取基于第三执行指令的执行结果得到的第二文本反馈信息，所述第三执行指令的执行结果是基于所述第二理解结果生成的；基于所述第二文本反馈信息，输出第二语音反馈信息。 9.根据权利要求7所述的方法，其特征在于，所述子结果还包括所述第一文本信息的结构化自然语言理解结果；所述方法还包括：若所述第一问题类型为所述第二特定类型，中断所述第一AI模型确定所述结构化自然语言理解结果的处理进程。 10.根据权利要求1至4任一项所述的方法，其特征在于，所述方法还包括：将所述第一文本信息和所述第一理解结果作为一个条目存储至预设存储区域。 11.根据权利要求1至4任一项所述的方法，其特征在于，所述至少基于所述第一理解结果和所述第二理解结果，响应所述语音指令，包括：基于所述第一理解结果、所述第二理解结果和第三理解结果响应于所述语音指令；所述第三理解结果是通过训练好的第三AI模型对所述第一文本信息进行语义理解得到的；所述第三AI模型和所述第一AI模型、所述第二AI模型均不同。 12.根据权利要求11所述的方法，其特征在于，所述第三AI模型的训练数据类型多于所述第二AI模型的训练数据类型。 13.根据权利要求11所述的方法，其特征在于，所述第一理解结果包括所述第一文本信息对应的第一问题类型；所述第三理解结果包括所述第一文本信息对应的第二问题类型；所述基于所述第一理解结果、所述第二理解结果和第三理解结果响应于所述语音指令，包括：若所述第一问题类型和所述第二问题类型中的至少一个为第一特定类型，基于所述第一理解结果和所述第三理解结果响应所述语音指令。 14.根据权利要求13所述的方法，其特征在于，所述第一问题类型和所述第二问题类型包括所述第一文本信息对应的场景；所述基于所述第一理解结果和所述第三理解结果响应所述语音指令，包括：若所述第一文本信息对应的场景为第一预设场景，根据获得所述第一理解结果和所述第三理解结果的先后顺序，确定所述第一文本信息的目标理解结果，所述目标理解结果为第一理解结果或第三理解结果；或，若所述第一文本信息对应的场景为第二预设场景，根据所述第一AI模型训练数据的类型和所述第二AI模型的训练数据的类型的大小关系，确定所述第一文本信息的目标理解结果；基于所述目标理解结果响应于所述语音指令。 15.根据权利要求14所述的方法，所述基于所述目标理解结果响应于所述语音指令，包括：基于所述目标理解结果生成第四执行指令；获取基于所述第四执行指令的执行结果得到的第三文本反馈信息；基于所述第三文本反馈信息得到第三语音反馈信息。 16.根据权利要求13所述的方法，其特征在于，所述基于所述第一理解结果、所述第二理解结果和第四理解结果第三理解结果响应于所述语音指令，还包括：若所述第一问题类型和所述第二问题类型中的至少一个为第一特定类型，且已基于所述第二理解结果生成第五执行指令，输出第三提示信息；所述第三提示信息用于提示所述第五执行指令的执行结果是基于错误理解所述语音指令的语义而生成的。 17.根据权利要求13所述的方法，其特征在于，所述基于所述第一理解结果、所述第二理解结果和第四理解结果第三理解结果响应于所述语音指令，还包括：若所述第一问题类型和所述第二问题类型中的至少一个为第一特定类型，且若未基于所述第二理解结果生成第五执行指令，禁止所述第五执行指令的生成，并输出第四提示信息；所述第四提示信息用于提示用户语音指令正在解析中。 18.根据权利要求13所述的方法，其特征在于，所述基于所述第一理解结果、所述第二理解结果和第三理解结果响应于所述语音指令，还包括：若所述第一问题类型和所述第二问题类型均为第二特定类型，基于所述第二理解结果响应所述语音指令。 19.根据权利要求18所述的方法，其特征在于，所述基于所述第二理解结果响应所述语音指令，包括：获取基于第六执行指令的执行结果得到的第四文本反馈信息，所述第六执行指令是基于所述第二理解结果生成的；基于所述第四文本反馈信息，输出第四语音反馈信息。 20.根据权利要求2所述的方法，其特征在于，所述子结果还包括所述第一文本信息对应的结构化自然语言理解结果；所述利用训练好的第一AI模型对所述第一文本信息进行语义理解，得到第一理解结果，包括：将所述第一文本信息输入至训练好的所述第一AI模型，若基于所述训练好的第一AI模型的第一输出信息检测到第一分段标识，根据所述第一分段标识从所述第一输出信息中提取所述第一文本信息对应的第一问题类型。 21.根据权利要求20所述的方法，其特征在于，在检测到所述第一分段标识之后，还包括：若基于所述训练好的第一AI模型的第二输出信息检测到第二分段标识，根据所述第二分段标识从所述第二输出信息中提取所述第一文本信息的结构化自然语言理解结果。 22.根据权利要求21所述的方法，其特征在于，所述方法还包括：若根据所述第一分段标识从所述第一输出信息中未提取到所述第一文本信息对应的第一问题类型，输出语义理解请求信息；所述语义理解请求信息用于请求所述语音指令的发出者说出所述第一文本信息正确的语义理解语音信息；获取针对所述语义理解请求信息反馈的所述第一文本信息的语义理解语音信息；基于所述语义理解语音信息，生成所述第一文本信息的第四理解结果；将所述第一文本信息和所述第四理解结果作为一个条目存储至预设存储区域。 23.根据权利要求1至4任一项所述的方法，其特征在于，还包括：若确定所述第一文本信息和预设存储区域中存储的参考文本信息相同，从所述预设存储区域中获取所述参考文本信息对应的参考语义理解结果；基于所述参考语义理解结果响应所述语音指令。 24.根据权利要求1至4任一项所述的方法，其特征在于，所述利用训练好的第一AI模型对所述第一文本信息进行语义理解，得到第一理解结果，包括：获取所述第一文本信息的历史文本信息；将所述第一文本信息和所述历史文本信息输入至所述训练好的第一AI模型，得到所述第一理解结果。 25.根据权利要求24所述的方法，其特征在于，所述利用训练好的第二AI模型对所述第一文本信息进行语义理解，得到第二理解结果，包括：将所述第一文本信息和所述历史文本信息输入至所述训练好的第二AI模型，得到所述第二理解结果。 26.根据权利要求1至4任一项所述的方法，其特征在于，所述第一AI模型的训练数据类型包括所述第二AI模型的训练数据类型以及不同于所述第二AI模型的训练数据类型的其他数据类型。 27.根据权利要求1至4任一项所述的方法，其特征在于，所述第一AI模型包括第一神经网络模型，所述第二AI模型包括第二神经网络模型；其中，所述第一神经网络模型包括第一编码器和解码器，所述第二神经网络模型包括第二编码器。 28.根据权利要求27所述的方法，其特征在于，所述第一神经网络模型的网络层总数大于所述第二神经网络模型的网络层总数。 29.根据权利要求1至4任一项所述的方法，其特征在于，所述第一AI模型的训练过程，包括：获取目标训练数据集，所述目标训练数据集包括多个合规的目标训练数据和各个目标训练数据的标注信息；利用超参数为参考参数的第一AI模型对所述多个合规的目标训练数据进行语义理解，得到多个参考理解结果；基于所述多个参考理解结果和所述各个目标训练数据的标注信息，对所述第一AI模型的参考参数进行反向传播训练，直至满足收敛条件，得到所述训练好的第一AI模型。 30.根据权利要求29所述的方法，其特征在于，所述获取目标训练数据集，包括：获取所述第二AI模型的第一训练数据集，所述第一训练数据集包括多个第一训练数据；将所述多个第一训练数据分别进行转换处理，得到包括多个第二训练数据的第二训练数据集；利用所述第二训练数据集对所述第一AI模型的预设参数进行训练，得到所述第一AI模型的参考参数；获取测试数据集，所述第二训练数据集和所述测试数据集不同，所述测试数据集包括多个测试数据；利用超参数为参考参数的所述第一AI模型对所述多个测试数据进行语义理解，得到多个第五理解结果，并利用所述训练好的第二AI模型对所述多个测试数据进行语义理解，得到多个第六理解结果；基于所述多个第五理解结果和所述多个第六理解结果，确定所述目标训练数据集。 31.根据权利要求30所述的方法，其特征在于，所述基于所述多个第五理解结果和所述多个第六理解结果，确定所述目标训练数据集，包括：若第i个测试数据对应的第五理解结果和所述第i个测试数据对应的第六理解结果不同，将所述第i个测试数据确定为第一类训练数据；其中，i大于0且小于或等于所述测试数据的总数；若第i个测试数据对应的第五理解结果和所述第i个测试数据对应的第六理解结果相同，将所述第i个测试数据确定为第二类训练数据；基于至少一个所述第一类训练数据、各个第一类训练数据对应的第五理解结果、至少一个所述第二类训练数据和各个第二类训练数据对应的第五理解结果/第六理解结果，构建所述目标训练数据集。 32.一种信息处理的装置，其特征在于，包括：识别模块，用于识别接收的语音指令的第一文本信息；第一语义理解模块，用于利用训练好的第一AI模型对所述第一文本信息进行语义理解，得到第一理解结果；以及利用训练好的第二AI模型对所述第一文本信息进行语义理解，得到第二理解结果；所述第一AI模型不同于所述第二AI模型；所述第一理解结果和第二理解结果均包括所述第一文本信息所表示的语义；所述第一AI模型的训练数据类型多于所述第二AI模型的训练数据类型；所述第一AI模型的至少一个结构参数的值大于所述第二AI模型的相应结构参数的值；第一语音指令响应模块，用于至少基于所述第一理解结果和所述第二理解结果，响应所述语音指令。 33.一种信息处理的设备，其特征在于，包括：存储器，用于存储可执行信息处理的指令；处理器，用于执行所述存储器中存储的可执行信息处理的指令时，实现权利要求1至31任一项所述的方法。 34.一种计算机可读存储介质，其特征在于，存储有信息处理的指令，用于引起处理器执行时，实现如权利要求1至31任一项所述的方法。

专利专题