API调用调取和口头响应的语言模型预测
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方专利
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

专利专题

API调用调取和口头响应的语言模型预测

引用
一种方法(500)包括获得来自用户(10)的针对数字助理(50)的话语(106)。所述方法包括使用语言模型(210)基于话语生成第一预测字符串(214),并确定第一预测字符串是否包括经由应用编程接口(API)(62)调取程序(60)的API调用(222)。当第一预测字符串包括API调用时,所述方法包括经由API调用程序以检索程序结果(224);接收程序结果;使用程序结果更新包括话语的对话场境(250);以及使用语言模型基于更新的对话场境来生成第二预测字符串(214)。当第一预测字符串不包括API调用时,所述方法包括基于第一预测字符串提供对话语的话语响应(226)。

发明专利

CN202280083972.4

2022-12-11

CN118355435A

2024-07-15

G10L15/22(2006.01)

谷歌有限责任公司

威廉·J·伯恩;卡尔斯克·克里斯纳莫尔斯;萨拉瓦南·加内什

美国

中原信达知识产权代理有限责任公司

朴金丹%周亚荣

美国;US

1.一种计算机实现的方法(500),所述计算机实现的方法在由数据处理硬件(112、144)执行时使所述数据处理硬件(112、144)执行包括以下的操作: 获得来自用户(10)的话语(106),所述话语包括针对数字助理(50)的用户查询; 使用语言模型(210)基于所述话语(106)生成第一预测字符串(214); 确定所述第一预测字符串(214)是否包括经由应用编程接口(API) (62)调取程序(60)的API调用(222); 当所述第一预测字符串(214)包括调取所述程序(60)的所述API调用(222)时: 使用所述API调用(222)经由所述API (62)来调用所述程序(60)以检索响应于所述话语(106)的程序结果(224); 经由所述API (62)接收所述程序结果(224); 利用所述程序结果(224)更新对话场境(250),所述对话场境(250)包括所述话语(106);以及 使用所述语言模型(210)基于所更新的对话场境(250)来生成第二预测字符串(214);并且 当所述第一预测字符串(214)不包括所述API调用(222)时,基于所述第一预测字符串(214)向所述用户(10)提供话语响应(226),以供从所述数字助理(50)输出。 2.如权利要求1所述的方法(500),其中所述操作还包括当所述第一预测字符串(214)包括调取所述程序(60)的所述API调用(222)时: 确定所述第二预测字符串(214)是否包括经由所述API(62)调取所述程序的所述API调用(222);以及 当所述第二预测字符串(214)不包括所述API调用(222)时,基于所述第二预测字符串(214)向所述用户(10)提供第二话语响应(226),以供从所述数字助理(50)输出。 3.如权利要求1或2所述的方法(500),其中所述操作还包括在向所述用户(10)提供所述第二话语响应(226)之后: 获得来自所述用户(10)的针对所述数字助理(50)的附加话语(106b); 利用来自所述用户(10)的所述附加话语(106b)进一步更新所述更新的对话场境(250);以及 使用所述语言模型(210)基于进一步更新的对话场境(250)生成第三预测字符串(214)。 4.如权利要求1至3中任一项所述的方法(500),其中获得所述话语(106)包括获得由所述用户(10)说出并由所述数字助理(50)在流音频中捕获的口头话语(106)的转录(120)。 5.如权利要求1至4中任一项所述的方法(500),其中获得所述转录(120)包括从所述数字助理(50)接收所述口头话语(106)的所述转录(120),所述数字助理(50)通过对表征所述口头话语(106)的音频数据执行语音识别来生成所述转录(120)。 6.如权利要求1至5中任一项所述的方法(500),其中获得所述转录(120)包括: 接收表征所述口头话语(106)的音频数据;以及 对表征所述口头话语(106)的所述音频数据执行语音识别以生成所述转录(120)。 7.如权利要求1至6中任一项所述的方法(500),其中获得所述话语(106)包括从所述数字助理(50)接收所述话语的文本表示,所述话语(106)的所述文本表示由所述用户(10)经由用户装置(110)输入。 8.如权利要求1至7中任一项所述的方法(500),其中所述话语响应(226)包括可听表示,所述可听表示包括从所述数字助理(50)可听地输出的合成语音。 9.如权利要求1至8中任一项所述的方法(500),其中所述话语响应(226)包括在所述数字助理(50)上执行的图形用户界面(GUI) (118)上显示的文本表示。 10.如权利要求1至9中任一项所述的方法(500),其中所述语言模型(210)包括使用标记的训练样本进行微调的预训练语言模型。 11.如权利要求1至10中任一项所述的方法(500),其中所述标记的训练样本包括带注释的API调用调取。 12.如权利要求1至11中任一项所述的方法(500),其中所述操作还包括,当所述第一预测字符串(214)包括经由API (62)调取所述程序(60)的所述API调用(222)时,从所述第一预测字符串(214)确定: 用于所述API调用(222)的一个或多个参数;以及 所述一个或多个参数中的每个参数的至少一个值。 13.如权利要求1至12中任一项所述的方法(500),其中所述语言模型(210)包括单个端到端机器学习模型。 14.如权利要求1至13中任一项所述的方法(500),其中所述语言模型(210)包括文本到文本转换的transformer语言模型。 15.一种系统(100),包括: 数据处理硬件(112、144);以及 与所述数据处理硬件(112、144)通信的存储器硬件(114、146),所述存储器硬件(114、146)存储指令,所述指令当在所述数据处理硬件(112、144)上执行时使所述数据处理硬件(112、144)执行包括以下项的操作: 获得来自用户(10)的话语(106),所述话语包括针对数字助理(50)的用户查询; 使用语言模型(210)基于所述话语(106)生成第一预测字符串(214); 确定所述第一预测字符串(214)是否包括经由应用编程接口(API) (62)调取程序(60)的API调用(222); 当所述第一预测字符串(214)包括调取所述程序(60)的所述API调用(222)时: 使用所述API调用(222)经由所述API (62)来调用所述程序(60)以检索响应于所述话语(106)的程序结果(224); 经由所述API (62)接收所述程序结果(224); 利用所述程序结果(224)更新对话场境(250),所述对话场境(250)包括所述话语(106);以及 使用所述语言模型(210)基于所更新的对话场境(250)来生成第二预测字符串(214);并且 当所述第一预测字符串(214)不包括所述API调用(222)时,基于所述第一预测字符串(214)提供针对所述话语(106)的话语响应(226),以供从用户装置(110)输出。 16.如权利要求15所述的系统(100),其中所述操作还包括当所述第一预测字符串(214)包括调取所述程序(60)的所述API调用(222)时: 确定所述第二预测字符串(214)是否包括经由所述API(62)调取所述程序(60)的所述API调用(222);以及 当所述第二预测字符串(214)不包括所述API调用(222)时,基于所述第二预测字符串(214)向所述用户(10)提供第二话语响应(226),以供从所述用户装置(110)输出。 17.如权利要求15或16所述的系统(100),其中所述操作还包括在向所述用户提供所述第二话语响应(226)之后: 获得来自所述用户(10)的针对所述数字助理(50)的附加话语(106b); 利用来自所述用户(10)的所述附加话语(106b)进一步更新所述更新的对话场境(250);以及 使用所述语言模型(210)基于进一步更新的对话场境(250)生成第三预测字符串(214)。 18.如权利要求15至17中任一项所述的系统(100),其中获得所述话语(106)包括获得由所述用户(10)说出并由所述用户装置(110)在流音频中捕获的口头话语(106)的转录(120)。 19.如权利要求15至18中任一项所述的系统(100),其中获得所述转录(120)包括从所述数字助理(50)接收所述口头话语(106)的所述转录(120),所述数字助理(50)通过对表征所述口头话语(106)的音频数据执行语音识别来生成所述转录(120)。 20.如权利要求15至19中任一项所述的系统(100),其中获得所述转录(120)包括: 接收表征所述口头话语(106)的音频数据;以及 对表征所述口头话语(106)的所述音频数据执行语音识别以生成所述转录(120)。 21.如权利要求15至20中任一项所述的系统(100),其中获得所述话语(106)包括接收所述话语(106)的文本表示,所述话语(106)的所述文本表示由所述用户(10)经由所述用户装置(110)输入。 22.如权利要求15至21中任一项所述的系统(100),其中所述话语响应(226)包括可听表示,所述可听表示包括从所述用户装置(110)可听地输出的合成语音。 23.如权利要求15至22中任一项所述的系统(100),其中所述话语响应(226)包括在所述用户装置(110)上执行的图形用户界面(GUI) (118)上显示的文本表示。 24.如权利要求15至23中任一项所述的系统(100),其中所述语言模型(210)包括使用标记的训练样本进行微调的预训练语言模型。 25.如权利要求15至24中任一项所述的系统(100),其中所述标记的训练样本包括带注释的API调用调取。 26.如权利要求15至25中任一项所述的系统(100),其中所述操作还包括,当所述第一预测字符串(214)包括经由API (62)调取所述程序的所述API调用(222)时,从所述第一预测字符串(214)确定: 用于所述API调用(222)的一个或多个参数;以及 所述一个或多个参数中的每个参数的至少一个值。 27.如权利要求15至26中任一项所述的系统(100),其中所述语言模型(210)包括单个端到端机器学习模型。 28.如权利要求15至27中任一项所述的系统(100),其中所述语言模型(210)包括文本到文本转换的transformer语言模型。
相关文献
评论
法律状态详情>>
相关作者
相关机构