API调用调取和口头响应的语言模型预测

引用

摘要：

一种方法(500)包括获得来自用户(10)的针对数字助理(50)的话语(106)。所述方法包括使用语言模型(210)基于话语生成第一预测字符串(214)，并确定第一预测字符串是否包括经由应用编程接口(API)(62)调取程序(60)的API调用(222)。当第一预测字符串包括API调用时，所述方法包括经由API调用程序以检索程序结果(224)；接收程序结果；使用程序结果更新包括话语的对话场境(250)；以及使用语言模型基于更新的对话场境来生成第二预测字符串(214)。当第一预测字符串不包括API调用时，所述方法包括基于第一预测字符串提供对话语的话语响应(226)。

专利类型：发明专利

申请/专利号：CN202280083972.4

申请日期：2022-12-11

公开/公告号：CN118355435A

公开/公告日：2024-07-15

主分类号：G10L15/22(2006.01)

申请/专利权人:谷歌有限责任公司

发明/设计人:威廉·J·伯恩;卡尔斯克·克里斯纳莫尔斯;萨拉瓦南·加内什

主申请人地址:美国

专利代理机构:中原信达知识产权代理有限责任公司

代理人:朴金丹%周亚荣

国别省市代码:美国;US

权利要求：

1.一种计算机实现的方法(500)，所述计算机实现的方法在由数据处理硬件(112、144)执行时使所述数据处理硬件(112、144)执行包括以下的操作：获得来自用户(10)的话语(106)，所述话语包括针对数字助理(50)的用户查询；使用语言模型(210)基于所述话语(106)生成第一预测字符串(214)；确定所述第一预测字符串(214)是否包括经由应用编程接口(API) (62)调取程序(60)的API调用(222)；当所述第一预测字符串(214)包括调取所述程序(60)的所述API调用(222)时：使用所述API调用(222)经由所述API (62)来调用所述程序(60)以检索响应于所述话语(106)的程序结果(224)；经由所述API (62)接收所述程序结果(224)；利用所述程序结果(224)更新对话场境(250)，所述对话场境(250)包括所述话语(106)；以及使用所述语言模型(210)基于所更新的对话场境(250)来生成第二预测字符串(214)；并且当所述第一预测字符串(214)不包括所述API调用(222)时，基于所述第一预测字符串(214)向所述用户(10)提供话语响应(226)，以供从所述数字助理(50)输出。 2.如权利要求1所述的方法(500)，其中所述操作还包括当所述第一预测字符串(214)包括调取所述程序(60)的所述API调用(222)时：确定所述第二预测字符串(214)是否包括经由所述API(62)调取所述程序的所述API调用(222)；以及当所述第二预测字符串(214)不包括所述API调用(222)时，基于所述第二预测字符串(214)向所述用户(10)提供第二话语响应(226)，以供从所述数字助理(50)输出。 3.如权利要求1或2所述的方法(500)，其中所述操作还包括在向所述用户(10)提供所述第二话语响应(226)之后：获得来自所述用户(10)的针对所述数字助理(50)的附加话语(106b)；利用来自所述用户(10)的所述附加话语(106b)进一步更新所述更新的对话场境(250)；以及使用所述语言模型(210)基于进一步更新的对话场境(250)生成第三预测字符串(214)。 4.如权利要求1至3中任一项所述的方法(500)，其中获得所述话语(106)包括获得由所述用户(10)说出并由所述数字助理(50)在流音频中捕获的口头话语(106)的转录(120)。 5.如权利要求1至4中任一项所述的方法(500)，其中获得所述转录(120)包括从所述数字助理(50)接收所述口头话语(106)的所述转录(120)，所述数字助理(50)通过对表征所述口头话语(106)的音频数据执行语音识别来生成所述转录(120)。 6.如权利要求1至5中任一项所述的方法(500)，其中获得所述转录(120)包括：接收表征所述口头话语(106)的音频数据；以及对表征所述口头话语(106)的所述音频数据执行语音识别以生成所述转录(120)。 7.如权利要求1至6中任一项所述的方法(500)，其中获得所述话语(106)包括从所述数字助理(50)接收所述话语的文本表示，所述话语(106)的所述文本表示由所述用户(10)经由用户装置(110)输入。 8.如权利要求1至7中任一项所述的方法(500)，其中所述话语响应(226)包括可听表示，所述可听表示包括从所述数字助理(50)可听地输出的合成语音。 9.如权利要求1至8中任一项所述的方法(500)，其中所述话语响应(226)包括在所述数字助理(50)上执行的图形用户界面(GUI) (118)上显示的文本表示。 10.如权利要求1至9中任一项所述的方法(500)，其中所述语言模型(210)包括使用标记的训练样本进行微调的预训练语言模型。 11.如权利要求1至10中任一项所述的方法(500)，其中所述标记的训练样本包括带注释的API调用调取。 12.如权利要求1至11中任一项所述的方法(500)，其中所述操作还包括，当所述第一预测字符串(214)包括经由API (62)调取所述程序(60)的所述API调用(222)时，从所述第一预测字符串(214)确定：用于所述API调用(222)的一个或多个参数；以及所述一个或多个参数中的每个参数的至少一个值。 13.如权利要求1至12中任一项所述的方法(500)，其中所述语言模型(210)包括单个端到端机器学习模型。 14.如权利要求1至13中任一项所述的方法(500)，其中所述语言模型(210)包括文本到文本转换的transformer语言模型。 15.一种系统(100)，包括：数据处理硬件(112、144)；以及与所述数据处理硬件(112、144)通信的存储器硬件(114、146)，所述存储器硬件(114、146)存储指令，所述指令当在所述数据处理硬件(112、144)上执行时使所述数据处理硬件(112、144)执行包括以下项的操作：获得来自用户(10)的话语(106)，所述话语包括针对数字助理(50)的用户查询；使用语言模型(210)基于所述话语(106)生成第一预测字符串(214)；确定所述第一预测字符串(214)是否包括经由应用编程接口(API) (62)调取程序(60)的API调用(222)；当所述第一预测字符串(214)包括调取所述程序(60)的所述API调用(222)时：使用所述API调用(222)经由所述API (62)来调用所述程序(60)以检索响应于所述话语(106)的程序结果(224)；经由所述API (62)接收所述程序结果(224)；利用所述程序结果(224)更新对话场境(250)，所述对话场境(250)包括所述话语(106)；以及使用所述语言模型(210)基于所更新的对话场境(250)来生成第二预测字符串(214)；并且当所述第一预测字符串(214)不包括所述API调用(222)时，基于所述第一预测字符串(214)提供针对所述话语(106)的话语响应(226)，以供从用户装置(110)输出。 16.如权利要求15所述的系统(100)，其中所述操作还包括当所述第一预测字符串(214)包括调取所述程序(60)的所述API调用(222)时：确定所述第二预测字符串(214)是否包括经由所述API(62)调取所述程序(60)的所述API调用(222)；以及当所述第二预测字符串(214)不包括所述API调用(222)时，基于所述第二预测字符串(214)向所述用户(10)提供第二话语响应(226)，以供从所述用户装置(110)输出。 17.如权利要求15或16所述的系统(100)，其中所述操作还包括在向所述用户提供所述第二话语响应(226)之后：获得来自所述用户(10)的针对所述数字助理(50)的附加话语(106b)；利用来自所述用户(10)的所述附加话语(106b)进一步更新所述更新的对话场境(250)；以及使用所述语言模型(210)基于进一步更新的对话场境(250)生成第三预测字符串(214)。 18.如权利要求15至17中任一项所述的系统(100)，其中获得所述话语(106)包括获得由所述用户(10)说出并由所述用户装置(110)在流音频中捕获的口头话语(106)的转录(120)。 19.如权利要求15至18中任一项所述的系统(100)，其中获得所述转录(120)包括从所述数字助理(50)接收所述口头话语(106)的所述转录(120)，所述数字助理(50)通过对表征所述口头话语(106)的音频数据执行语音识别来生成所述转录(120)。 20.如权利要求15至19中任一项所述的系统(100)，其中获得所述转录(120)包括：接收表征所述口头话语(106)的音频数据；以及对表征所述口头话语(106)的所述音频数据执行语音识别以生成所述转录(120)。 21.如权利要求15至20中任一项所述的系统(100)，其中获得所述话语(106)包括接收所述话语(106)的文本表示，所述话语(106)的所述文本表示由所述用户(10)经由所述用户装置(110)输入。 22.如权利要求15至21中任一项所述的系统(100)，其中所述话语响应(226)包括可听表示，所述可听表示包括从所述用户装置(110)可听地输出的合成语音。 23.如权利要求15至22中任一项所述的系统(100)，其中所述话语响应(226)包括在所述用户装置(110)上执行的图形用户界面(GUI) (118)上显示的文本表示。 24.如权利要求15至23中任一项所述的系统(100)，其中所述语言模型(210)包括使用标记的训练样本进行微调的预训练语言模型。 25.如权利要求15至24中任一项所述的系统(100)，其中所述标记的训练样本包括带注释的API调用调取。 26.如权利要求15至25中任一项所述的系统(100)，其中所述操作还包括，当所述第一预测字符串(214)包括经由API (62)调取所述程序的所述API调用(222)时，从所述第一预测字符串(214)确定：用于所述API调用(222)的一个或多个参数；以及所述一个或多个参数中的每个参数的至少一个值。 27.如权利要求15至26中任一项所述的系统(100)，其中所述语言模型(210)包括单个端到端机器学习模型。 28.如权利要求15至27中任一项所述的系统(100)，其中所述语言模型(210)包括文本到文本转换的transformer语言模型。

专利专题