用于语音使能设备的动态唤醒词

引用

摘要：

本公开涉及用于语音使能设备的动态唤醒词。公开了一种能够将口头话语解析成自然语言请求和语音音频段的系统和方法，其中所述自然语言请求指示所述系统使用所述语音音频段作为新唤醒词。响应于此唤醒词指派指令，所述系统和方法进一步能够立即构建新唤醒词侦测器，以在与输入音频中的所述新唤醒词匹配时激活所述设备。描述了用于迅速地构建新唤醒词侦测器的不同方法。唤醒词指派指令的变型可使新唤醒词成为公用的或私有的。它们也可将新唤醒词添加到较早的唤醒词，或者替换较早的唤醒词。

专利类型：发明专利

申请/专利号：CN202011343264.9

申请日期：2020-11-26

公开/公告号：CN112927683A

公开/公告日：2021-06-08

主分类号：G10L15/18(2013.01)

申请/专利权人:声音猎手公司

发明/设计人:莫伯耐

主申请人地址:美国加利福尼亚州

专利代理机构:北京东方亿思知识产权代理有限责任公司

代理人:姜飞

国别省市代码:美国;US

权利要求：

1.一种修改语音使能设备的一个或多个唤醒词的集合的方法，包括：从用户接收口头请求；将所述口头请求解析成自然语言请求和语音音频段，其中所述自然语言请求指示所述设备接受所述语音音频段作为新唤醒词；以及构建新唤醒词侦测器，以识别所述新唤醒词作为激活触发器。 2.根据权利要求1所述的方法，其中所述新唤醒词侦测器被立即构建。 3.根据权利要求1所述的方法，包括：给予所述用户对所述自然语言请求的口头响应，所述口头响应确认所述新唤醒词，其中所述新唤醒词侦测器在所述口头响应结束之前被构建。 4.根据权利要求1所述的方法，其中，所述口头请求在所述用户与所述设备之间的口头对话期间的任何时间被接收。 5.根据权利要求1所述的方法，进一步包括：定义所述新唤醒词侦测器，其中，所述新唤醒词侦测器在所述设备上本地构建。 6.根据权利要求1所述的方法，进一步包括：训练所述新唤醒词侦测器，其中，所述新唤醒词侦测器的训练在通过网络连接到所述设备的服务器上远程地执行。 7.根据权利要求1所述的方法，进一步包括：将所述新唤醒词添加到至少包括较早的唤醒词的较早唤醒词集合中，所述新唤醒词侦测器在接收到包括所述新唤醒词或来自所述较早唤醒词集合的唤醒词的语音音频段时激活所述设备。 8.根据权利要求1所述的方法，进一步包括：用所述新唤醒词替换一个或多个较早的唤醒词，使得在所述替换之后，所述设备在接收到与所述新唤醒词匹配的语音音频段时激活，而在接收到与较早的唤醒词匹配的语音音频段时不激活。 9.根据权利要求8所述的方法，进一步包括以下步骤：稍后将所述设备的唤醒词集合重置为包括所述较早的唤醒词，使得所述新唤醒词侦测器在接收到包括所述较早的唤醒词的语音音频段时激活所述设备。 10.根据权利要求8所述的方法，进一步包括：稍后将所述设备的唤醒词集合重置为出厂设置。 11.根据权利要求1所述的方法，其中基于所述语音音频段训练所述新唤醒词侦测器，并且所述训练是说话者相关的，使得当所述新唤醒词由创建了所述新唤醒词的所述用户说出时，设备将激活，而当所述新唤醒词由其他人说出时，所述设备将不激活。 12.根据权利要求11所述的方法，进一步包括：生成所述用户的话音的模型，以用于说话者验证的目的。 13.根据权利要求1所述的方法，其中基于所述语音音频段训练所述新唤醒词侦测器，并且所述训练是说话者无关的，使得当所述新唤醒词由创建了所述新唤醒词的所述用户和并未创建所述新唤醒词的其他人说出时，所述设备将激活。 14.根据权利要求1所述的方法，其中所述设备从所述用户索求针对所述新唤醒词的附加语音音频样本，并且使用所述语音音频段和所述附加语音音频样本来训练所述新唤醒词侦测器。 15.根据权利要求14所述的方法，其中所述新唤醒词侦测器的训练在所述设备上本地执行。 16.根据权利要求1所述的方法，其中构建新唤醒词侦测器的步骤包括以下步骤：使用针对所述新唤醒词的音素段的至少一些部分的缓存的侦测器来训练所述新唤醒词侦测器。 17.根据权利要求1所述的方法，其中构建新唤醒词侦测器的步骤包括以下步骤：将所述新唤醒词划分成音素段，并且使用针对所述音素段的至少一些部分的缓存的侦测器。 18.根据权利要求1所述的方法，其中构建新唤醒词侦测器的步骤包括以下步骤：将所述新唤醒词划分成音素段，并且为所述音素段构建侦测器。 19.根据权利要求1所述的方法，其中所述新唤醒词侦测器根据从远程服务器流式传输的音素段而被形成，并且被与存储在所述设备上的唤醒词的音素段进行比较。 20.一种修改语音使能设备的一个或多个唤醒词的集合的方法，包括：接受口头话语；将所述话语解析成自然语言请求和语音音频段，其中所述自然语言请求指示所述设备接受所述语音音频段作为新唤醒词；使用自动语音识别来将所述新唤醒词映射到新唤醒词音素序列；以及通过以下步骤来构建新唤醒词侦测器以识别所述新唤醒词音素序列作为激活触发器：将所述新唤醒词音素序列划分成两个或多个连续部分音素段的序列；对于每个部分音素段，提供对应的部分唤醒词侦测器；以及依次将所提供的部分唤醒词侦测器组装成用于整个新唤醒词音素序列的所述新唤醒词侦测器。 21.根据权利要求20所述的方法，其中将所述新唤醒词音素序列划分成音素段的步骤包括：将所述新唤醒词音素序列划分成词的步骤。 22.根据权利要求20所述的方法，其中将所述新唤醒词音素序列划分成音素段的步骤包括：将所述新唤醒词音素序列划分成单独的音节的步骤。 23.根据权利要求20所述的方法，其中将所述新唤醒词音素序列划分成音素段的步骤包括：将所述新唤醒词音素序列划分成比音节更小的音素段的步骤。 24.根据权利要求20所述的方法，其中为部分音素段提供部分唤醒词侦测器包括：标识按音素标记的音频段的数据集；搜索所述数据集，以收集音素标记与所述部分音素段匹配的音频段，以及基于所收集到的音频段，训练所述部分唤醒词侦测器。 25.根据权利要求20所述的方法，其中为部分音素段提供部分唤醒词侦测器包括：标识通过唤醒词索引的缓存的唤醒词侦测器的合集；针对所述部分音素段检索缓存的唤醒词侦测器。 26.根据权利要求20所述的方法，其中对于每个音素段提供对应的部分唤醒词侦测器的步骤包括以下步骤：从唤醒词侦测器的缓存中检索针对所述新唤醒词音素序列的连续音素段的部分唤醒词侦测器，并且将所述部分唤醒词侦测器组装成所述新唤醒词侦测器。 27.根据权利要求20所述的方法，其中对于每个音素段提供对应的部分唤醒词侦测器的步骤包括以下步骤：检查存储器是否有针对音素段的缓存的唤醒词侦测器，以及当所述音素段不具有缓存在所述存储器中的唤醒词侦测器时，为所述音素段构建唤醒词侦测器。 28.根据权利要求20所述的方法，进一步包括：将所述新唤醒词添加到至少包括较早的唤醒词的较早唤醒词集合中，所述新唤醒词侦测器在接收到包括所述新唤醒词或来自所述较早唤醒词集合的唤醒词的语音音频段时激活所述设备。 29.一种修改语音使能设备的一个或多个唤醒词的集合的方法，包括：接收口头请求；将所述口头请求解析成自然语言请求和语音音频段，其中所述自然语言请求指示所述设备接受所述语音音频段作为新唤醒词；以及通过以下步骤来定义新唤醒词侦测器以识别所述新唤醒词作为激活触发器：确定所述语音音频段的附加语音音频样本，将所述语音音频段和所述附加语音音频样本转换为音素序列，以及基于所述音素序列中的一个或多个音素序列定义所述新唤醒词侦测器。 30.根据权利要求29所述的方法，其中所述新唤醒词是对于提供了所述口头请求的人而言的私有唤醒词，使得所述设备在从所述人而非其他人接收到所述新唤醒词时激活。 31.根据权利要求29所述的方法，进一步包括：从用户接收反馈，以在所述音素序列中的两个或更多个音素序列彼此不相同时验证音素序列的正确性。 32.根据权利要求29所述的方法，进一步包括：将所述新唤醒词添加到至少包括较早的唤醒词的较早唤醒词集合，所述新唤醒词侦测器在接收到包括所述新唤醒词或来自所述较早唤醒词集合的唤醒词的语音音频段时激活所述设备。 33.根据权利要求29所述的方法，进一步包括：用所述新唤醒词替换较早的唤醒词，使得所述唤醒词侦测器在接收到包括所述新唤醒词的语音音频段时激活所述设备，而在接收到包括所述较早的唤醒词的语音音频段时不激活所述设备。 34.根据权利要求29所述的方法，进一步包括以下步骤：将所述设备的唤醒词集合重置为包括所述较早的唤醒词，使得所述新唤醒词侦测器在接收到包括所述较早的唤醒词的语音音频段时激活所述设备。

专利专题