经由深度前馈神经网络使用自然语言理解相关知识的语音识别

引用

摘要：

本公开总体上涉及自动语音识别领域，并且更具体地，涉及改进利用一个或多个语音识别引擎的语音识别系统的操作的系统和方法。框架对由一个或多个ASR引擎为每个输入语音话语生成的多个假设进行排名。所述框架联合实现了ASR改进和NLU。它利用NLU相关知识来促进竞争假设的排名，并且将排名最高的假设作为改进的ASR结果与语音话语的NLU结果一起输出。NLU结果包括意图检测结果和槽位填充结果。

专利类型：发明专利

申请/专利号：CN202010391548.9

申请日期：2020-05-11

公开/公告号：CN111916070A

公开/公告日：2020-11-10

主分类号：G10L15/22(2006.01)

申请/专利权人:罗伯特·博世有限公司

发明/设计人:Z.周;X.宋

主申请人地址:德国斯图加特

专利代理机构:中国专利代理(香港)有限公司

代理人:刘书航%申屠伟进

国别省市代码:德国;DE

权利要求：

1.一种由控制器执行的用于系统中的语音识别的方法，包括：从语音输入解析多个候选语音识别结果；从第一语音识别引擎接收来自所述多个候选语音识别结果中的每个的第一多个特征向量，所述第一多个特征向量包括第一置信度得分；从不同于所述第一语音识别引擎的第二语音识别引擎接收来自所述多个候选语音识别结果中的每个的第二多个特征向量，所述第二多个特征向量包括低于所述第一置信度得分的第二置信度得分；基于自然语言理解（NLU）信息，从所述多个候选语音识别结果中的每个中提取NLU结果；基于所述NLU结果和NLU相关特征，经由共享投影层将所述第一多个特征向量和所述第二多个特征向量压缩到所述共享投影层；进一步基于所述NLU结果和NLU相关特征将所述共享投影层压缩到第二投影层；经由神经网络排名器将排名得分与所述多个候选语音识别结果中的每个相关联，所述排名得分基于所述多个特征向量和所述多个候选语音识别结果中的每个的所述NLU结果，其中所述神经网络排名器基于所述NLU相关特征将所述第二置信度得分提高到大于所述第一置信度得分；从所述多个候选语音识别结果中选择与具有最高值的排名得分相关联的语音识别结果；以及使用从所述多个候选语音识别结果中选择的与最高排名得分相对应的语音识别结果作为输入来操作所述系统。 2.根据权利要求1所述的方法，其中所述神经网络排名器是深度前馈神经网络排名器。 3.根据权利要求1所述的方法，其中所述压缩是经由共享投影矩阵进行的。 4.根据权利要求3所述的方法，进一步包括响应于第一多个特征向量和第二多个特征向量小于阈值大小，由控制器绕过所述共享投影层和第二投影层，使得所述第二多个特征向量被直接馈送到神经网络排名器，其中特征向量的阈值大小小于每个假设2个特征。 5.根据权利要求4所述的方法，其中第一多个特征向量和第二多个特征向量包括多个置信度得分，并且进一步包括：由控制器基于所述多个置信度得分执行线性回归处理，以针对所述第一多个特征向量和第二多个特征向量中的每个生成归一化的多个置信度得分，所述归一化的多个置信度得分基于多个候选语音识别结果中的一个预定候选语音识别结果的置信度得分。 6.根据权利要求1所述的方法，其中NLU信息是基于槽位的触发特征或表示槽位和意图敏感的语句嵌入的语义特征。 7.根据权利要求6所述的方法，其中第一语音识别引擎是特定领域的语音识别引擎，并且第二语音识别引擎是通用语音识别引擎或基于云的语音识别引擎。 8.根据权利要求7所述的方法，其中第一多个特征向量和第二多个特征向量包括双向长短期记忆（BLSTM）特征。 9.一种由控制器执行的用于系统中的语音识别的方法，包括：从语音输入解析多个候选语音识别结果；经由第一语音识别引擎从所述多个候选语音识别结果中的每个中提取第一多个特征向量；经由不同于所述第一语音识别引擎的第二语音识别引擎从所述多个候选语音识别结果的每个中提取第二多个特征向量；基于自然语言理解（NLU）信息，从所述多个候选语音识别结果中的每个中提取NLU结果；基于所述NLU结果和NLU相关特征，经由共享投影层将所述第一多个特征向量和所述第二多个特征向量压缩到所述共享投影层；进一步基于所述NLU结果和NLU相关特征将所述共享投影层压缩到第二投影层；经由神经网络排名器将排名得分与所述多个候选语音识别结果中的每个相关联，所述排名得分基于所述多个特征向量和所述多个候选语音识别结果中的每个的所述NLU结果；从所述多个候选语音识别结果中选择与具有最高值的排名得分相关联的语音识别结果；以及使用从所述多个候选语音识别结果中选择的与所述最高排名得分相对应的语音识别结果作为输入来操作所述系统。 10.根据权利要求9所述的方法，其中神经网络排名器是深度前馈神经网络排名器。 11.根据权利要求9所述的方法，其中压缩是经由共享投影矩阵进行的。 12.根据权利要求11所述的方法，进一步包括响应于第一多个特征向量和第二多个特征向量小于阈值大小，由控制器绕过共享投影层和第二投影层，使得所述第二多个特征向量被直接馈送到神经网络排名器，其中特征向量的所述阈值大小小于每个假设2个特征。 13.根据权利要求12所述的方法，其中第一多个特征向量和第二多个特征向量包括多个置信度得分，并且进一步包括: 由控制器基于所述多个置信度得分执行线性回归处理，以针对所述第一多个特征向量和所述第二多个特征向量中的每个生成归一化的多个置信度得分，所述归一化的多个置信度得分基于所述多个候选语音识别结果中的一个预定候选语音识别结果的置信度得分。 14.根据权利要求9所述的方法，其中NLU信息是基于槽位的触发特征或表示槽位和意图敏感的语句嵌入的语义特征。 15.根据权利要求14所述的方法，其中第一语音识别引擎是特定领域语音识别引擎，并且第二语音识别引擎是通用语音识别引擎或基于云的语音识别引擎。 16.根据权利要求15所述的方法，其中第一多个特征向量和第二多个特征向量包括双向长短期记忆（BLSTM）特征。 17.一种语音识别系统，包括：麦克风，被配置为从一个或多个用户接收语音输入；与麦克风通信的处理器，所述处理器被编程为：从语音输入解析多个候选语音识别结果；从第一语音识别引擎接收来自所述多个候选语音识别结果中的每个的第一多个特征向量，所述第一多个特征向量包括第一置信度得分；从不同于所述第一语音识别引擎的第二语音识别引擎接收来自所述多个候选语音识别结果中的每个的第二多个特征向量，所述第二多个特征向量包括低于所述第一置信度得分的第二置信度得分；基于自然语言理解（NLU）信息，从所述多个候选语音识别结果的每个中提取NLU结果；经由神经网络排名器将排名得分与所述多个候选语音识别结果中的每个相关联，所述排名得分基于所述多个特征向量和所述多个候选语音识别结果中的每个的NLU结果，其中所述神经网络排名器基于NLU相关特征将所述第二置信度得分提高到大于所述第一置信度得分；以及从所述多个候选语音识别结果中选择与具有最高值的排名得分相关联的语音识别结果。 18.根据权利要求17所述的语音识别系统，其中处理器被进一步编程为使用从所述多个候选语音识别结果中选择的与最高排名得分相对应的语音识别结果作为输入来操作所述系统。 19.根据权利要求17所述的语音识别系统，其中处理器被进一步编程为利用至少NLU结果来训练与所述语音识别系统相关联的神经网络。 20.根据权利要求17所述的语音识别系统，其中处理器被进一步编程为基于NLU结果和NLU相关特征，经由共享投影层将第一多个特征向量和第二多个特征向量压缩到所述共享投影层，并且进一步基于所述NLU结果和NLU相关特征，将所述共享投影层压缩到第二投影层。

专利专题