用于自动语音识别的场境去规范化

引用

摘要：

一种方法(600)包括：从用户接收语音输入(104)；以及获得与语音输入相关联的场境元数据(110)。该方法还包括：生成与语音输入相对应的原始语音识别结果(312)；以及基于与语音输入相关联的场境元数据来选择要应用于所生成的原始语音识别结果的一个或多个去规范化器(352)的列表。所生成的原始语音识别结果包括规范化文本。该方法还包括：通过将一个或多个去规范化器的列表依次应用于所生成的原始语音识别结果来将所生成的原始语音识别结果去规范化成去规范化文本(322)。

专利类型：发明专利

申请/专利号：CN201980058744.X

申请日期：2019-09-03

公开/公告号：CN112673424A

公开/公告日：2021-04-16

主分类号：G10L15/26(2006.01)

申请/专利权人:谷歌有限责任公司

发明/设计人:阿萨夫·赫维茨·迈克立;彼塔尔·阿列克西克;佩德罗·莫雷诺

主申请人地址:美国加利福尼亚州

专利代理机构:中原信达知识产权代理有限责任公司

代理人:李宝泉%任庆威

国别省市代码:美国;US

权利要求：

1.一种方法(600)，包括：在自动语音识别ASR模块(300)的数据处理硬件(710)处，从用户接收语音输入(104)，所述ASR模块(300)包括要应用于对由所述ASR模块(300)生成的规范化文本进行去规范化的去规范化器(350)的预定义集合；由所述数据处理硬件(710)获得与所述语音输入(104)相关联的场境元数据(110)；由所述数据处理硬件(710)生成与所述语音输入(104)相对应的原始语音识别结果(312)，所生成的原始语音识别结果(312)包括规范化文本；由所述数据处理硬件(710)基于与所述语音输入(104)相关联的所述场境元数据(110)来选择要应用于所生成的原始语音识别结果(312)的一个或多个去规范化器(352)的列表；以及由所述数据处理硬件(710)通过将所述一个或多个去规范化器(352)的所述列表依次应用于所生成的原始语音识别结果(312)来将所生成的原始语音识别结果(312)去规范化成去规范化文本(322)。 2.根据权利要求1所述的方法(600)，其中：接收所述语音输入(104)包括从与所述用户相关联的用户设备(200)接收与所述语音输入(104)相对应的音频数据(103)；并且获得与所述语音输入(104)相关联的所述场境元数据(110)包括当接收到所述语音输入(104)的所述音频数据(103)时从所述用户设备(200)接收与所述语音输入(104)相关联的所述场境元数据(110)。 3.根据权利要求1或2所述的方法(600)，其中，获得与所述语音输入(104)相关联的所述场境元数据(110)包括：当接收到所述语音输入(104)时接收与所述用户相关联的用户标识符(12)；以及使用所述用户标识符(12)来从与所述数据处理硬件(710)通信的存储器硬件(146、206)中检索所述场境元数据(110)。 4.根据权利要求1-3中的任一项所述的方法(600)，其中，所述场境元数据(110)包括以下中的至少一个：与所述语音输入(104)相关联的语音识别类别、在与所述用户相关联的用户设备(200)上运行的应用、在接收到所述语音输入(104)时所述用户的位置、标识所述用户的用户标识符(12)、与所述用户相关联的人口统计信息或用于对文本进行去规范化的用户偏好。 5.根据权利要求1-4中的任一项所述的方法(600)，其中，选择所述一个或多个去规范化器(352)的所述列表包括通过以下中的至少一个来修改来自所述去规范化器(350)的预定义集合的去规范化器(348)的默认列表：从所述去规范化器(348)的所述默认列表中移除一个或多个去规范化器(352)或者将来自所述去规范化器(350)的预定义集合的一个或多个去规范化器(352)添加到所述去规范化器(348)的所述默认列表。 6.根据权利要求1-5中的任一项所述的方法(600)，还包括：由所述数据处理硬件(710)将与所述语音输入(104)相关联的所述场境元数据(110)提供给场境服务器(400)，所述场境服务器(400)被配置成基于所述场境元数据(110)来生成用于将所生成的原始语音识别结果(312)去规范化成所述去规范化文本(322)的去规范化指令(410)；以及在所述数据处理硬件(710)处，从所述场境服务器(400)接收所述去规范化指令(410)，其中，选择所述一个或多个去规范化器(352)的所述列表包括使用从所述场境服务器(400)接收到的所述去规范化指令(410)来选择所述一个或多个去规范化器(352)的所述列表。 7.根据权利要求6所述的方法(600)，其中，将与所述语音输入(104)相关联的所述场境元数据(110)提供给所述场境服务器(400)包括将与所述语音输入(104)相关联的所述场境元数据(110)提供给所述场境服务器(400)，而不将所述语音输入(104)或与所述语音输入(104)相关联的任何音频数据(103)提供给所述场境服务器(400)。 8.根据权利要求6或7所述的方法(600)，其中，所述去规范化指令(410)包括以下指令中的一个或多个，所述以下指令包括：追加去规范化器指令，所述追加去规范化器指令标识要在去规范化器(348)的默认列表的开头追加的新去规范化器，所述去规范化器(348)的默认列表包括要在不存在所述场境元数据(110)的情况下依次应用于所生成的原始语音识别结果(312)的所述去规范化器(350)的预定义集合的一部分；附加去规范化器指令，所述附加去规范化器指令标识要在所述去规范化器(348)的默认列表的末尾附加的新去规范化器；移除去规范化器指令，所述移除去规范化器指令标识要从所述去规范化器(348)的默认列表中移除的现有去规范化器；取代去规范化器指令，所述取代去规范化器指令标识要从所述去规范化器(348)的默认列表中替换现有去规范化器的新去规范化器；或添加去规范化器指令，所述添加去规范化器指令标识要添加到所述去规范化器(348)的默认列表的新去规范化器并且从所述去规范化器(348)的默认列表中标识在所述新去规范化器之前或之后的现有去规范化器。 9.根据权利要求6-8中的任一项所述的方法(600)，其中，所述去规范化指令(410)包括用去规范化器(352)的新列表重载所述去规范化器(348)的默认列表的重载指令，所述去规范化器(352)的新列表包括所述一个或多个去规范化器(352)的选定列表。 10.根据权利要求6-9中的任一项所述的方法(600)，其中，所述场境服务器(400)被配置成：接收特定于所述ASR模块(300)的客户端的一个或多个定制去规范化规则(402)；并且基于特定于所述客户端的所述一个或多个定制去规范化规则(402)来编译定制去规范化器。 11.根据权利要求1-10中的任一项所述的方法(600)，其中，使用所述一个或多个去规范化器(352)的选定列表来将所生成的原始语音识别结果(312)去规范化成所述去规范化文本(322)包括：使用对应的键(344)来从存储器硬件(146、206)中检索所述一个或多个去规范化器(352)的选定列表中的每个去规范化器，所述存储器硬件(146、206)与所述数据处理硬件(710)通信；以及将从所述存储器硬件(146、206)中检索到的所述一个或多个去规范化器(352)的选定列表中的每个去规范化器依次应用于所生成的原始语音识别结果(312)。 12.根据权利要求11所述的方法(600)，其中，所述存储器硬件(146、206)位于所述ASR模块(300)上。 13.根据权利要求11或12所述的方法(600)，其中，所述存储器硬件(146、206)包括远离所述ASR模块(300)定位的储存库(440)。 14.根据权利要求1至13中的任一项所述的方法(600)，还包括，在将所生成的原始语音识别结果(312)去规范化成所述去规范化文本(322)之后，将所述去规范化文本(322)从所述ASR模块(300)传送到客户端设备(200)，所述去规范化文本(322)当由所述客户端设备(200)接收到时被配置成使所述客户端设备(200)将所述去规范化文本(322)显示在所述客户端设备(200)的显示屏幕(212)上。 15.根据权利要求14所述的方法(600)，其中，从所述ASR模块(300)传送所述去规范化文本(322)包括将所述去规范化文本(322)实时地流式传输到所述客户端设备(200)。 16.一种系统(100)，包括：自动语音识别ASR模块(300)的数据处理硬件(710)，所述ASR模块(300)包括要应用于对由所述ASR模块(300)生成的规范化文本进行去规范化的去规范化器(350)的预定义集合；和所述ASR模块(300)的存储器硬件(146、206)，所述存储器硬件与所述数据处理硬件(710)通信并存储指令，所述指令当由所述数据处理硬件(710)执行时使所述数据处理硬件(710)进行包括以下的操作：从用户接收语音输入(104)；获得与所述语音输入(104)相关联的场境元数据(110)；生成与所述语音输入(104)相对应的原始语音识别结果(312)，所生成的原始语音识别结果(312)包括规范化文本；基于与所述语音输入(104)相关联的所述场境元数据(110)来选择要应用于所生成的原始语音识别结果(312)的一个或多个去规范化器(352)的列表；以及通过将所述一个或多个去规范化器(352)的所述列表依次应用于所生成的原始语音识别结果(312)来将所生成的原始语音识别结果(312)去规范化成去规范化文本(322)。 17.根据权利要求16所述的系统(100)，其中：接收所述语音输入(104)包括从与所述用户相关联的用户设备(200)接收与所述语音输入(104)相对应的音频数据(103)；并且获得与所述语音输入(104)相关联的所述场境元数据(110)包括当接收到所述语音输入(104)的所述音频数据(103)时从所述用户设备(200)接收与所述语音输入(104)相关联的所述场境元数据(110)。 18.根据权利要求16或17所述的系统(100)，其中，获得与所述语音输入(104)相关联的所述场境元数据(110)包括：当接收到所述语音输入(104)时接收与所述用户相关联的用户标识符(12)；以及使用所述用户标识符(12)来从所述存储器硬件(146、206)中检索所述场境元数据(110)。 19.根据权利要求16-18中的任一项所述的系统(100)，其中，所述场境元数据(110)包括以下中的至少一个：与所述语音输入(104)相关联的语音识别类别、在与所述用户相关联的用户设备(200)上运行的应用、在接收到所述语音输入(104)时所述用户的位置、标识所述用户的用户标识符(12)、与所述用户相关联的人口统计信息或用于对文本进行去规范化的用户偏好。 20.根据权利要求16-19中的任一项所述的系统(100)，其中，选择所述一个或多个去规范化器(352)的所述列表包括通过以下中的至少一个来修改来自所述去规范化器(350)的预定义集合的去规范化器(348)的默认列表：从所述去规范化器(348)的默认列表中移除一个或多个去规范化器(352)或者将来自所述去规范化器(350)的预定义集合的一个或多个去规范化器(352)添加到所述去规范化器(348)的默认列表。 21.根据权利要求16-20中的任一项所述的系统(100)，其中，所述操作还包括：将与所述语音输入(104)相关联的所述场境元数据(110)提供给场境服务器(400)，所述场境服务器(400)被配置成基于所述场境元数据(110)来生成用于将所生成的原始语音识别结果(312)去规范化成所述去规范化文本(322)的去规范化指令(410)；以及从所述场境服务器(400)接收所述去规范化指令(410)，其中，选择所述一个或多个去规范化器(352)的所述列表包括使用从所述场境服务器(400)接收到的所述去规范化指令(410)来选择所述一个或多个去规范化器(352)的所述列表。 22.根据权利要求21所述的系统(100)，其中，将与所述语音输入(104)相关联的所述场境元数据(110)提供给所述场境服务器(400)包括将与所述语音输入(104)相关联的所述场境元数据(110)提供给所述场境服务器(400)，而不将所述语音输入(104)或与所述语音输入(104)相关联的任何音频数据(103)提供给所述场境服务器(400)。 23.根据权利要求21或22所述的系统(100)，其中，所述去规范化指令(410)包括以下指令中的一个或多个，所述以下指令包括：追加去规范化器指令，所述追加去规范化器指令标识要在去规范化器(348)的默认列表的开头追加的新去规范化器，所述去规范化器(348)的默认列表包括要在不存在所述场境元数据(110)的情况下依次应用于所生成的原始语音识别结果(312)的所述去规范化器(350)的预定义集合的一部分；附加去规范化器指令，所述附加去规范化器指令标识要在所述去规范化器(348)的默认列表的末尾附加的新去规范化器；移除去规范化器指令，所述移除去规范化器指令标识要从所述去规范化器(348)的默认列表中移除的现有去规范化器；取代去规范化器指令，所述取代去规范化器指令标识要从所述去规范化器(348)的默认列表中替换现有去规范化器的新去规范化器；或添加去规范化器指令，所述添加去规范化器指令标识要添加到所述去规范化器(348)的默认列表的新去规范化器并且从所述去规范化器(348)的默认列表中标识在所述新去规范化器之前或之后的现有去规范化器。 24.根据权利要求21-23中的任一项所述的系统(100)，其中，所述去规范化指令(410)包括用去规范化器(352)的新列表重载所述去规范化器(348)的默认列表的重载指令，所述去规范化器(352)的新列表包括所述一个或多个去规范化器(352)的选定列表。 25.根据权利要求21-24中的任一项所述的系统(100)，其中，所述场境服务器(400)被配置成：接收特定于所述ASR模块(300)的客户端的一个或多个定制去规范化规则(402)；并且基于特定于所述客户端的所述一个或多个定制去规范化规则(402)来编译定制去规范化器。 26.根据权利要求16-25中的任一项所述的系统(100)，其中，使用所述一个或多个去规范化器(352)的选定列表来将所生成的原始语音识别结果(312)去规范化成所述去规范化文本(322)包括：使用对应的键(344)来从所述存储器硬件(146、206)中检索所述一个或多个去规范化器(352)的选定列表中的每个去规范化器；以及将从所述存储器硬件(146、206)中检索到的所述一个或多个去规范化器(352)的选定列表中的每个去规范化器依次应用于所生成的原始语音识别结果(312)。 27.根据权利要求26所述的系统(100)，其中，所述存储器硬件(146、206)位于所述ASR模块(300)上。 28.根据权利要求26或27所述的系统(100)，其中，所述存储器硬件(146、206)包括远离所述ASR模块(300)定位的储存库(440)。 29.根据权利要求16-28中的任一项所述的系统(100)，其中，所述操作还包括，在将所生成的原始语音识别结果(312)去规范化成所述去规范化文本(322)之后，将所述去规范化文本(322)从所述ASR模块(300)传送到客户端设备(200)，所述去规范化文本(322)当由所述客户端设备(200)接收到时，被配置成使所述客户端设备(200)将所述去规范化文本(322)显示在所述客户端设备(200)的显示屏幕(212)上。 30.根据权利要求29所述的系统(100)，其中，从所述ASR模块(300)传送所述去规范化文本(322)包括将所述去规范化文本(322)实时地流式传输到所述客户端设备(200)。

专利专题