使用关键语句适应性地识别语音

引用

摘要：

本公开涉及使用关键语句适应性地识别语音。一种用于识别语音的示例装置包括音频接收器，用于接收音频流。该装置还包括关键语句检测器，用于检测音频流中的关键语句。该装置还包括模型适配器，用于基于检测到的关键语句来动态地适配模型。该装置还包括查询识别器，用于通过经适配的模型来检测音频流中跟随在关键语句之后的声音查询。

专利类型：发明专利

申请/专利号：CN202010980904.0

申请日期：2020-09-17

公开/公告号：CN112927678A

公开/公告日：2021-06-08

主分类号：G10L15/02(2006.01)

申请/专利权人:英特尔公司

发明/设计人:克尔兹托夫·查诺夫斯基;穆尼尔·尼古拉·亚历山大·乔治;托比亚斯·博克雷;乔治·施特默尔

主申请人地址:美国加利福尼亚州

专利代理机构:北京东方亿思知识产权代理有限责任公司

代理人:李丽

国别省市代码:美国;US

权利要求：

1.一种装置，包括：音频接收器，所述音频接收器用于接收音频流；关键语句检测器，所述关键语句检测器用于检测所述音频流中的关键语句；模型适配器，所述模型适配器用于基于所述关键语句来动态地适配模型；以及查询识别器，所述查询识别器用于通过所述模型来检测所述音频流中跟随在所述关键语句之后的声音查询。 2.根据权利要求1所述的装置，其中，所述关键语句检测器包括数字信号处理器。 3.根据权利要求1所述的装置，其中，所述关键语句检测器和所述模型适配器包括神经网络。 4.根据权利要求1-3中任一项所述的装置，其中，所述关键语句检测器包括超低功率声音唤醒单元，所述专用超低功率声音唤醒单元用于基于所述音频流中的语音特征来检测所述关键语句。 5.根据权利要求1-4中任一项所述的装置，其中，所述关键语句包括唤醒语句。 6.根据权利要求4或5所述的装置，还包括特征前端，所述特征前端用于基于所述音频流来计算所述语音特征。 7.根据权利要求1-6中任一项所述的装置，其中，所述模型包括声学模型，所述声学模型用于生成多元音素上的概率分布。 8.根据权利要求1-7中任一项所述的装置，其中，所述模型包括语言模型，所述语言模型用于计算最终字母序列。 9.根据权利要求1-8中任一项所述的装置，其中，所述模型包括递归神经元网络。 10.根据权利要求1-9中任一项所述的装置，其中，所述模型包括时间延迟神经元网络。 11.根据权利要求1-10中任一项所述的装置，其中，所述模型适配器将各个时间步长处的误差后向传播回到初始状态。 12.根据权利要求1-11中任一项所述的装置，其中，所述模型适配器在后向传递中对所述模型的多个权重进行调整。 13.根据权利要求1-12中任一项所述的装置，其中，所述模型适配器通过将所述关键语句的经识别的多元音素概率分布与参考分布进行比较来计算误差。 14.一种方法，包括：经由处理器接收音频流；经由所述处理器检测所述音频流中的关键语句；经由所述处理器基于所述关键语句来动态地适配模型；以及经由所述处理器通过所述模型来检测音频流中跟随在所述关键语句之后的声音查询。 15.根据权利要求14所述的方法，其中，适配所述模型包括：将各个时间步长处的误差后向传播回到初始状态。 16.根据权利要求14或15所述的方法，其中，适配所述模型包括：在后向传递中对所述模型的多个权重进行调整。 17.根据权利要求14到16中任一项所述的方法，其中，适配所述模型包括：通过将所述关键语句的经识别的多元音素概率分布与参考分布进行比较来计算误差。 18.根据权利要求14到17中任一项所述的方法，其中，适配所述模型包括：在后向传递中对所述模型的初始状态进行调整。 19.根据权利要求14到18中任一项所述的方法，其中，检测所述关键语句包括：在所述模型上执行前向传递。 20.根据权利要求14到19中任一项所述的方法，其中，检测所述关键语句包括：通过超低功率唤醒语句检测器来对所述音频流进行处理。 21.根据权利要求14到20中任一项所述的方法，还包括：基于所述音频流来生成语音特征流，其中，所述关键语句是基于所述特征流来检测的。 22.根据权利要求14到21中任一项所述的方法，其中，检测所述声音查询包括：生成多元音素上的概率分布。 23.根据权利要求14到22中任一项所述的方法，其中，检测所述声音查询包括：计算最终字母序列。 24.一种计算机可读存储设备，包括指令，所述指令当被执行时，使得一个或多个处理器至少执行以下操作：检测音频流中的关键语句；基于所述关键语句来动态地适配模型；并且通过所述模型来检测所述音频流中跟随在所述关键语句之后的声音查询。 25.根据权利要求24所述的存储设备，其中，所述指令使得所述一个或多个处理器将各个时间步长处的误差传播回到初始状态。 26.根据权利要求24或25所述的存储设备，其中，所述指令使得所述一个或多个处理器在后向传递中对所述模型的多个权重进行调整。 27.根据权利要求24到26中任一项所述的存储设备，其中，所述指令使得所述一个或多个处理器通过将所述关键语句的经识别的多元音素概率分布与参考分布进行比较来计算误差。 28.根据权利要求24到27中任一项所述的存储设备，其中，所述指令使得所述一个或多个处理器在后向传递中对所述模型的初始状态进行调整。 29.一种设备，包括：用于接收音频流的装置；用于检测所述音频流中的关键语句的装置；用于基于所述关键语句来动态地适配模型的装置；以及用于通过所述模型来检测音频流中跟随在所述关键语句之后的声音查询的装置。 30.根据权利要求29所述的设备，其中，用于适配所述模型的所述装置将各个时间步长处的误差传播回到初始状态。 31.根据权利要求29或30所述的设备，其中，用于适配所述模型的所述装置在后向传递中对所述模型的多个权重进行调整。 32.根据权利要求29到31中任一项所述的设备，其中，用于适配所述模型的所述装置通过将所述关键语句的经识别的多元音素概率分布与参考分布进行比较来计算误差。 33.根据权利要求29到32中任一项所述的设备，其中，用于适配所述模型的所述装置在后向传递中对所述模型的初始状态进行调整。 34.根据权利要求29到33中任一项所述的设备，其中，用于检测所述关键语句的所述装置在所述模型上执行前向传递。 35.根据权利要求29到34中任一项所述的设备，其中，用于检测所述关键语句的所述装置通过超低功率唤醒语句检测器来对所述音频流进行处理。 36.根据权利要求29到35中任一项所述的设备，还包括：用于基于所述音频流来生成语音特征流的装置，其中，所述关键语句是基于所述特征流来检测的。 37.根据权利要求29到36中任一项所述的设备，其中，用于检测所述声音查询的所述装置生成多元音素上的概率分布。 38.根据权利要求29到37中任一项所述的设备，其中，用于检测所述声音查询的所述装置计算最终字母序列。

专利专题