用于低资源设备的高准确度关键短语检测的方法和系统

引用

摘要：

本申请涉及用于低资源设备的高准确度关键短语检测的方法和系统。本文公开了与用于诸如话音唤醒之类的应用的关键短语检测有关的技术。通过使用三音素中的音素位置的分数来选择哪些三音素要与排斥模型一起使用、将上下文相关音素用于排斥模型、在针对关键短语模型的关键短语声音之前添加静默或这些的任何组合，此类技术可以具有高准确度。

专利类型：发明专利

申请/专利号：CN202010197657.7

申请日期：2020-03-19

公开/公告号：CN111833866A

公开/公告日：2020-10-27

主分类号：G10L15/22(2006.01)

申请/专利权人:英特尔公司

发明/设计人:塞巴斯蒂安·切里巴;托比亚斯·博克雷;库巴·洛帕特卡

主申请人地址:美国加利福尼亚州

专利代理机构:北京东方亿思知识产权代理有限责任公司

代理人:姜飞

国别省市代码:美国;US

权利要求：

1.一种计算机实现的音频关键短语检测的方法，包括：生成与接收到的音频输入相关联的亚语音单位的分数的时间系列和添加的静默分数；基于亚语音单位的分数的时间系列中的至少一些，来更新基于起始状态的排斥模型和与预先确定的关键短语相关联的关键短语模型，其中，所述排斥模型和所述关键短语模型都具有通过过渡互连的状态；经由所述过渡从所述排斥模型并通过所述关键短语模型来传播分数相关值，并且包括通过一系列连续的静默状态来传播所述值以在口语关键短语的至少一部分之前或之后或者之前和之后有意地添加静默；以及取决于通过使用所述关键短语模型所计算的关键短语检测似然分数而进行关键短语检测确定。 2.根据权利要求1所述的方法，其中，更新所述静默状态包括从声学模型给多个静默状态提供相同分数。 3.根据权利要求1所述的方法，其中，每个静默状态具有多个自循环以接收对每个静默状态而言相同的多个分数。 4.根据权利要求1所述的方法，其中，被使用的连续静默状态的数量对应于预先确定的静默的持续时间。 5.根据权利要求1所述的方法，其中，所述静默状态被放置在所述排斥模型之后和所述关键短语模型的关键短语状态之前，并且沿着值经由所述过渡的流动而放置。 6.根据权利要求1所述的方法，其中，到个别静默状态的过渡包括多个过渡，每个单个过渡与所述过渡的组内的不同音频环境相关联。 7.根据权利要求6所述的方法，所述方法包括形成相同的两个状态之间的所述多个过渡的单个代表性分数，并且用所述代表性分数更新所述状态中的一个。 8.根据权利要求7所述的方法，其中，最后静默状态通过使用输入到所述最后静默状态的所述代表性分数来生成单个过渡值并且提供给所述关键短语模型的关键短语状态。 9.根据权利要求1所述的方法，其中，所述排斥模型被布置为接收一个或多个上下文相关排斥语音三音素的排斥分数，其中，上下文相关三音素具有一个或两个音素，该一个或两个因素从形成一个或多个所接受的关键短语语音三音素的音素变化而来。 10.根据权利要求1所述的方法，其中，所述排斥模型被布置为接收三音素的分数，每个三音素具有中心音素，该中心音素在词汇表分类数据结构中具有一个或多个最多发生的中心音素分数，所述词汇表分类数据结构接收形成词汇表的单音素作为该结构的输入。 11.一种用于执行关键短语检测的系统，包括：存储器，所述存储器被配置为存储声学模型、基于起始状态的排斥模型、以及与预先确定的关键短语相关联的至少一个关键短语模型；以及至少一个处理器，所述至少一个处理器耦合到所述存储器并且通过以下步骤来操作：生成所述声学模型以生成亚语音单位的分数的时间系列，以便基于亚语音单位的分数的时间系列中的至少一些来更新所述排斥模型和所述关键短语模型以生成关键短语似然分数；生成所述排斥模型以接收三音素的排斥分数，所述三音素形成所述声学模型的亚语音单位，其中，所述排斥分数是排斥语音非关键短语三音素的分数，所述排斥语音非关键短语三音素具有从以下音素改变而来的音素中的一个或两个：这些音素形成所述声学模型的至少一个所接受的关键短语三音素输出，所述输出形成要检测的关键短语的一部分；以及生成所述关键短语模型，以从所述排斥模型接收值来生成所述关键短语似然分数以进行关键短语检测确定。 12.根据权利要求11所述的系统，其中：仅所述关键短语三音素的中心音素被改变，仅所述关键短语三音素的左音素或右音素或这两者被改变，仅所述关键短语三音素的辅音被改变，或者仅所述关键短语三音素的元音被改变。 13.根据权利要求11所述的系统，其中，生成所述排斥模型包括：获得所接受的关键短语三音素；改变所接受的关键短语三音素的音素中的一个或两个，以形成所述非关键短语三音素；对所述非关键短语三音素进行建模；以及将所述排斥模型布置为在所述排斥模型上的自循环处接收所述非关键短语三音素的分数。 14.根据权利要求11所述的系统，其中，用于形成所述声学模型的训练集中的仅N个最频繁发生的非关键短语三音素具有被添加到所述排斥模型的分数。 15.根据权利要求11所述的系统，其中，所述排斥模型被布置为接收三音素或中心音素的分数，每个三音素或中心音素与在词汇表分类数据结构中具有一个或多个最多发生的中心音素分数的中心音素相关联或者是这样的中心音素，所述词汇表分类数据结构接收形成词汇表的单音素作为该结构的输入。 16.根据权利要求11所述的系统，其中，所述关键短语模型包括通过从一个状态到下一个状态的过渡而线性连接的状态，并且其中，至少两个或更多个连续的静默状态被放置在连续的关键短语状态之前或之后或者之前和之后，以在所述关键短语状态之前或之后插入静默。 17.至少一种非暂时性机器可读介质，所述非暂时性机器可读介质包括多个指令，所述多个指令响应于在设备上被执行而使所述设备通过以下步骤来操作：生成音频关键短语检测模型，包括：训练具有多个排斥输出节点的声学模型，所述排斥输出节点各自包括亚语音单位，至少一些亚语音单位的形式为绑定上下文相关三音素HMM状态；确定在词汇表分类数据结构中选择的三音素的一个或多个最多发生的中心音素分数，所述词汇表分类数据结构接收形成词汇表的单音素作为该结构的输入，并且所述一个或多个最多发生的中心音素分数是针对与所述单音素中的不同单音素相关联的每个中心音素而确定的；生成排斥模型，包括将所述排斥模型布置为接收所述声学模型上的所述亚语音单位中的个别亚语音单位的排斥分数，所述亚语音单位分别表示所述中心音素中的一个或所述三音素中的一个；以及生成至少一个关键短语模型，该关键短语模型从所述排斥模型接收值以进行检测确定。 18.根据权利要求17所述的介质，其中，所述布置包括使所述排斥模型在单个状态排斥模型的不同自循环处接收每个排斥分数。 19.根据权利要求17所述的介质，其中，所述确定包括：获得具有相同中心音素分数的中心音素的发生次数的统计；以及在所述词汇表分类数据结构的输出当中仅选择具有如下中心音素的三音素，该中心音素具有所述中心音素分数的最多或N个最多发生次数。 20.根据权利要求17所述的介质，其中，所述中心音素分数是概率密度函数(PDF)分数。 21.根据权利要求17所述的介质，其中，所述声学模型被修剪，以使得仅所确定的三音素形成所述声学模型的非关键短语语音排斥输出节点。 22.根据权利要求17所述的介质，其中，所述排斥模型被布置为接收分别与所述单音素中的不同的单音素相关联的所述三音素的排斥分数。 23.根据权利要求17所述的介质，其中，所述排斥模型被布置为接收所述一个或多个最多发生的中心音素分数作为排斥分数，并且其中，所述单音素中的每一个具有所述中心音素分数中的不同的中心音素分数。 24.至少一个机器可读介质，包括多个指令，所述多个指令响应于在计算设备上被执行而使所述计算设备执行根据权利要求1-10中的任一权利要求所述的方法。 25.一种设备，包括用于执行根据权利要求1-10中的任一权利要求所述的方法的装置。

专利专题