语音处理方法、装置和分布式系统

引用

摘要：

公开了一种语音处理方法、装置和分布式系统。所述方法包括：接收语音数据；对所述语音数据进行语音处理，其中，所述语音处理包括：基于场景信息，从多个语音识别组件中选择一个或多个语音识别组件对所述语音数据进行处理；和/或基于场景信息，从多个自然语言处理组件中选择一个或多个自然语言处理组件对所述语音数据对应的文本进行处理。语音处理链路还可以包括诸如唤醒、声纹和语音合成功能。执行上述功能的组件可以根据场景动态选取，由此灵活应对不同的应用场景，并提供各自最优的使用体验。

专利类型：发明专利

申请/专利号：CN201910305343.1

申请日期：2019-04-16

公开/公告号：CN111833857A

公开/公告日：2020-10-27

主分类号：G10L15/18(2013.01)

申请/专利权人:阿里巴巴集团控股有限公司

发明/设计人:钟学书;杨扬;邹一新;李兴伟;袁志俊;王恺;张贤佳

主申请人地址:英属开曼群岛大开曼资本大厦一座四层847号邮箱

专利代理机构:北京展翼知识产权代理事务所(特殊普通合伙)

代理人:张阳

国别省市代码:开曼群岛;KY

权利要求：

1.一种语音处理方法，包括：接收语音数据；对所述语音数据进行处理，其中，所述处理包括：基于场景信息，从多个语音识别组件中选择一个或多个语音识别组件对所述语音数据进行处理；和/或基于场景信息，从多个自然语言处理组件中选择一个或多个自然语言处理组件对所述语音数据对应的文本进行处理。 2.如权利要求1所述的方法，还包括：与所述语音数据对应的应用或模块对接；以及获取所述应用或模块的相关信息作为场景信息。 3.如权利要求2所述的方法，其中，经由第一格式接口切换与多个语音应用或多个语音模块中的一个或多个对接。 4.如权利要求1所述的方法，还包括：经由第二格式接口接入所述多个语音识别组件；和/或经由第三格式接口接入所述多个自然语言处理组件。 5.如权利要求1所述的方法，其中，所述多个语音识别组件包括一个或多个本地语音识别组件以及一个或多个云端语音识别组件，和/或所述多个自然语言处理组件包括一个或多个本地自然语言处理组件以及一个或多个云端识别组件。 6.如权利要求1所述的方法，还包括：至少基于所述自然语言处理的结果，对所述语音数据进行响应。 7.如权利要求1所述的方法，还包括：获取场景信息；以及基于获取的场景信息以及配置规则，生成配置信息。 8.如权利要求7所述的方法，其中，基于场景信息，从多个语音识别组件中选择一个或多个语音识别组件对所述语音数据进行处理包括：基于与所述场景信息相对应的语音识别配置信息，从多个语音识别组件中选择一个或多个语音识别组件对所述语音数据进行处理。 9.如权利要求7所述的方法，其中，基于场景信息，从多个自然语言处理组件中选择一个或多个自然语言处理组件对所述语音数据对应的文本进行处理包括：基于与所述场景信息相对应的自然语言处理配置信息，从多个自然语言处理组件中选择一个或多个自然语言处理组件对所述语音数据对应的文本进行处理。 10.如权利要求7所述的方法，还包括：获取接入的至少部分语音处理组件的相关信息；以及至少基于所述相关信息，制定所述配置规则。 11.如权利要求1所述的方法，其中，所述场景信息包括如下至少一项：所述语音数据对应的应用或模块；用户偏好设置；本地和/或云端系统状态；联网状态；以及会话所属场景。 12.如权利要求1所述的方法，对所述语音数据进行处理还包括：基于场景信息，从多个唤醒组件中选择一个唤醒组件对音频数据进行处理。 13.如权利要求1所述的方法，对所述语音数据进行处理还包括：基于场景信息，从多个声纹组件中选择一个或多个声纹组件对所述语音数据进行处理。 14.如权利要求1所述的方法，对所述语音数据进行处理还包括：基于所述场景信息，从多个语音合成组件中选择一个语音合成组件对基于自然语言处理结果生成的数据进行处理。 15.如权利要求14所述的方法，对所述语音数据进行处理还包括：向所述语音数据对应的应用或模块发送所述自然语言处理结果；接收所述应用或模块基于所述自然语言处理结果生成的语音合成命令；以及基于所述场景信息和所述语音合成命令，从多个语音合成组件中选择一个语音合成组件进行处理。 16.一种语音处理装置，包括：第一模块，用于接收语音数据；以及语音处理模块，用于对所述语音进行处理，其中，所述语音处理模块包括：第二模块，用于基于场景信息，从多个语音识别组件中选择一个或多个语音识别组件对所述语音数据进行处理；和/或第三模块，用于基于场景信息，从多个自然语言处理组件中选择一个或多个自然语言处理组件对所述语音数据对应的文本进行处理。 17.如权利要求16所述的装置，其中，所述多个语音识别组件分别经由第二格式接口接入所述第二模块；和/或所述多个自然语言处理组件分别经由第三格式接口接入所述第三模块。 18.如权利要求16所述的装置，其中，所述多个语音识别组件包括一个或多个本地语音识别组件以及一个或多个云端语音识别组件；和/或所述多个自然语言处理组件包括一个或多个本地自然语言处理组件以及一个或多个云端识别组件。 19.如权利要求16所述的装置，所述语音处理模块还包括：第四模块基于场景信息，从多个唤醒组件中选择一个唤醒组件对音频数据进行处理。 20.如权利要求16所述的装置，所述语音处理模块还包括：第五模块基于场景信息，从多个声纹组件中选择一个或多个声纹组件对所述语音数据进行处理。 21.如权利要求16所述的装置，所述语音处理模块还包括：第六模块基于所述场景信息，从多个语音合成组件中选择一个语音合成组件对基于自然语言处理结果生成的数据进行处理。 22.如权利要求16所述的装置，还包括：第七模块获取场景信息，并且基于获取的场景信息和配置规则，生成配置信息。 23.如权利要求22所述的装置，其中，所述第七模块进一步用于：获取到的场景信息发送给配置中心；获取所述配置中心根据配置规则在线生成的配置信息；以及分别向所述第二模块和所述第三模块下发对应的配置信息。 24.如权利要求22所述的装置，其中，所述第七模块进一步用于基于如下至少一项获取场景信息：所述语音数据对用的应用或模块；用户偏好设置；本地和/或云端系统状态；联网状态；以及会话所属场景。 25.如权利要求16所述的装置，还包括：第八模块，与所述语音数据对应的应用或模块对接，并且用于获取所述应用或模块的相关信息作为场景信息。 26.如权利要求25所述的装置，其中，所述第八模块经由第一格式接口切换与多个应用或模块中的一个或多个对接。 27.如权利要求25所述的装置，其中，所述第八模块将所述自然语言处理的结果发送给所述语音数据对应的应用或模块，并接收所述应用或模块生成的语音合成命令，并且其中，所述语音处理模块包括第六模块，基于所述语音合成命令从多个语音合成组件中选择一个语音合成组件进行处理。 28.如权利要求16所述的装置，还包括：第九模块，用于基于所述自然语言处理的结果，对所述语音数据进行响应。 29.如权利要求16所述的装置，其中，由单个模块执行所述第一模块、所述第七模块、所述第八模块和所述第九模块中至少两个模块的功能。 30.如权利要求16-26中任一项所述的装置，还包括：各自经由格式接口与组件选择模块相连的本地语音处理模块，包括如下至少一项：经由第二格式接口与第二模块相连的一个或多个本地语音识别模块；经由第三格式接口与第三模块相连的一个或多个本地自然语言处理模块；经由第四格式接口与第四模块相连的一个或多个本地唤醒模块；经由第五格式接口与第五模块相连的一个或多个本地声纹识别模块；经由第六格式接口与第六模块相连的一个或多个本地语音合成模块。 31.一种分布式语音处理系统，包括：如权利要求16-30中任一项所述的语音处理装置；以及各自经由格式接口，与所述语音处理装置的组件选择模块相连的云端语音处理组件。 32.如权利要求31所述的系统，还包括：云端组件选择模块，用于从多个云端语音处理组件的处理结果中动态选择最优处理结果，并将所述最优处理结果返回给本地组件选择模块。 33.如权利要求31所述的系统，还包括：配置中心，用于：接收所述语音处理装置发送的场景信息；基于配置规则在线生成的配置信息，所述本地组件选择模块基于所述配置信息选择要进行语音处理的组件；以及将所述配置信息下发给所述语音处理装置。 34.如权利要求33所述的系统，其中，所述配置中心进一步用于：获取接入的至少部分组件的相关信息；以及基于所述相关信息，制定所述配置规则。 35.一种计算设备，包括：处理器；以及存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1-15中任一项所述的方法。 36.一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1-15中任一项所述的方法。

专利专题