语音交互控制方法、装置、电子设备、存储介质和系统

引用

摘要：

本申请公开了一种语音交互控制方法、装置、电子设备、存储介质和系统，涉及语音识别、人机交互和深度学习技术领域。其中，一种语音交互控制方法的具体实现方案为：采集音频信号；检测所述音频信号中的唤醒词；基于检测的唤醒词结果，播放提示音和/或执行音频信号中的语音指令。本申请实施例简化了交互流程。

专利类型：发明专利

申请/专利号：CN202010622594.5

申请日期：2020-06-30

公开/公告号：CN111768783A

公开/公告日：2020-10-13

主分类号：G10L15/22(2006.01)

申请/专利权人:北京百度网讯科技有限公司

发明/设计人:高聪;邹赛赛;白锦峰;贾磊

主申请人地址:100085 北京市海淀区上地十街10号百度大厦2层

专利代理机构:北京品源专利代理有限公司

代理人:孟金喆

国别省市代码:北京;11

权利要求：

1.一种语音交互控制方法，包括：采集音频信号；检测所述音频信号中的唤醒词；基于检测的唤醒词结果，播放提示音和/或执行所述音频信号中的语音指令。 2.根据权利要求1所述的方法，其中，所述唤醒词结果包括第一置信度，所述第一置信度用于表征所述音频信号包括目标唤醒词的可信度；所述基于检测的唤醒词结果，播放提示音和/或执行所述音频信号中的语音指令，包括：如果所述第一置信度满足第一置信度阈值要求，执行所述语音指令；如果所述第一置信度不满足所述第一置信度阈值要求，播放所述提示音。 3.根据权利要求1或2所述的方法，在所述基于检测的唤醒词结果，执行所述音频信号中的语音指令之前或之时，还包括：不播放所述提示音。 4.根据权利要求2所述的方法，其中，所述唤醒词结果包括第二置信度，所述第二置信度用于表征所述音频信号包括普通唤醒词的可信度；所述基于检测的唤醒词结果，播放提示音，包括：如果所述第二置信度满足第二置信度阈值要求且所述第一置信度不满足所述第一置信度阈值要求，播放所述提示音。 5.根据权利要求4所述的方法，其中，所述普通唤醒词包括至少一个所述目标唤醒词；所述检测所述音频信号中的唤醒词，包括：采用唤醒词检测模型对所述音频信号中的目标唤醒词进行初次检测，得到初次检测结果；在所述初次检测后的设定时长内对所述目标唤醒词进行再次检测，得到再次检测结果；根据所述初次检测结果和所述再次检测结果，确定所述第一置信度和所述第二置信度。 6.根据权利要求1或2所述的方法，其中，所述语音指令通过对所述音频信号中所述唤醒词之后的部分进行检测得到。 7.根据权利要求2所述的方法，其中，所述方法由语音交互终端执行；所述如果所述第一置信度满足第一置信度阈值要求，执行所述语音指令，包括：如果所述第一置信度满足第一置信度阈值要求，将所述目标唤醒词对应的音频信号和后续音频信号发送至服务器，以供所述服务器检测接收到的音频信号首部的唤醒词和所述唤醒词之后的语音指令；从所述服务器获取所述语音指令并执行。 8.根据权利要求2、4、5或7所述的方法，其中，所述目标唤醒词为小于四音节的词；所述普通唤醒词为四音节及以上的词。 9.根据权利要求2、4、5或7所述的方法，其中，所述目标唤醒词与所述普通唤醒词的音节数相同。 10.一种语音交互控制方法，包括：获取音频信号；检测所述音频信号首部的唤醒词和所述唤醒词之后的语音指令；基于检测的唤醒词结果和语音指令结果中的至少一项，控制语音交互终端播放提示音和/或执行语音指令。 11.根据权利要求10所述的方法，其中，所述唤醒词结果包括第三置信度，所述第三置信度用于表征所述音频信号首部包括目标唤醒词的可信度；所述基于检测的唤醒词结果和语音指令结果中的至少一项，控制语音交互终端播放提示音和/或执行语音指令，包括：如果所述第三置信度满足第三置信度阈值要求，基于所述语音指令结果控制所述语音交互终端执行所述语音指令；如果所述第三置信度不满足所述第三置信度阈值要求，控制所述语音交互终端播放所述提示音。 12.根据权利要求11所述的方法，其中，所述唤醒词结果包括第四置信度，所述第四置信度用于表征所述音频信号首部包括普通唤醒词的可信度；所述基于检测的唤醒词结果和语音指令结果中的至少一项，控制语音交互终端播放提示音和/或执行语音指令，包括：如果所述第四置信度满足第四置信度阈值要求，基于所述语音指令结果控制所述语音交互终端执行所述语音指令和/或控制所述语音交互终端播放所述提示音；如果所述第四置信度不满足所述第四置信度阈值要求且所述第三置信度不满足所述第三置信度阈值要求，向所述语音交互终端发送空指令。 13.根据权利要求10所述的方法，其中，所述检测所述音频信号首部的唤醒词和所述唤醒词之后的语音指令，包括：对所述音频信号的识别文本首部进行唤醒词检测；根据所述音频信号的声学特征表示和与所述音频信号的识别文本相关联的文本特征表示中的至少一项，确定所述音频信号的交互置信度，所述交互置信度指示所述音频信号是用于与所述终端进行交互的语音指令的可靠程度；确定所述识别文本与所述音频信号的匹配状况，所述匹配状况指示所述识别文本正确反映所述音频信号包含的信息的程度；根据所述交互置信度、所述匹配状况和唤醒词检测结果，得到所述唤醒词结果和所述语音指令结果。 14.根据权利要求10-13任一项所述的方法，其中，所述方法由服务器执行；所述获取音频信号，包括：接收语音交互终端发送的所述音频信号。 15.一种语音交互控制装置，包括：采集模块，用于采集音频信号；检测模块，用于检测所述音频信号中的唤醒词；执行模块，用于基于检测的唤醒词结果，播放提示音和/或执行所述音频信号中的语音指令。 16.根据权利要求15所述的装置，其中，所述唤醒词结果包括第一置信度，所述第一置信度用于表征所述音频信号包括目标唤醒词的可信度；所述执行模块，包括：指令执行单元，用于如果所述第一置信度满足第一置信度阈值要求，执行所述语音指令；播放单元，用于如果所述第一置信度不满足所述第一置信度阈值要求，播放所述提示音。 17.根据权利要求15或16所述的装置，所述装置还包括：不播放模块，用于在所述基于检测的唤醒词结果，执行所述音频信号中的语音指令之前或之时，不播放所述提示音。 18.根据权利要求16所述的装置，其中，所述唤醒词结果包括第二置信度，所述第二置信度用于表征所述音频信号包括普通唤醒词的可信度；所述执行模块在基于检测的唤醒词结果，播放提示音时，具体用于如果所述第二置信度满足第二置信度阈值要求且所述第一置信度不满足所述第一置信度阈值要求，播放所述提示音。 19.根据权利要求18所述的装置，其中，所述普通唤醒词包括至少一个所述目标唤醒词；所述检测模块，包括：初次检测模块，用于采用唤醒词检测模型对所述音频信号中的目标唤醒词进行初次检测，得到初次检测结果；再次检测模块，用于在所述初次检测后的设定时长内对所述目标唤醒词进行再次检测，得到再次检测结果；确定模块，用于根据所述初次检测结果和所述再次检测结果，确定所述第一置信度和所述第二置信度。 20.根据权利要求15或16所述的装置，其中，所述语音指令通过对所述音频信号中所述唤醒词之后的部分进行检测得到。 21.根据权利要求16所述的装置，其中，所述装置配置在语音交互终端中；所述指令执行单元，包括：发送子单元，用于如果所述第一置信度满足第一置信度阈值要求，将所述目标唤醒词对应的音频信号和后续音频信号发送至服务器，以供所述服务器检测接收到的音频信号首部的唤醒词和所述唤醒词之后的语音指令；获取子单元，用于从所述服务器获取所述语音指令并执行。 22.根据权利要求16、18、19或21所述的装置，其中，所述目标唤醒词为小于四音节的词；所述普通唤醒词为四音节及以上的词。 23.根据权利要求16、18、19或21所述的装置，其中，所述目标唤醒词与所述普通唤醒词的音节数相同。 24.一种语音交互控制装置，包括：获取模块，用于获取音频信号；检测模块，用于检测所述音频信号首部的唤醒词和所述唤醒词之后的语音指令；控制模块，用于基于检测的唤醒词结果和语音指令结果中的至少一项，控制语音交互终端播放提示音和/或执行语音指令。 25.根据权利要求24所述的装置，其中，所述唤醒词结果包括第三置信度，所述第三置信度用于表征所述音频信号首部包括目标唤醒词的可信度；所述控制模块，包括：第一执行单元，用于如果所述第三置信度满足第三置信度阈值要求，基于所述语音指令结果控制所述语音交互终端执行所述语音指令；控制单元，用于如果所述第三置信度不满足所述第三置信度阈值要求，控制所述语音交互终端播放所述提示音。 26.根据权利要求25所述的装置，其中，所述唤醒词结果包括第四置信度，所述第四置信度用于表征所述音频信号首部包括普通唤醒词的可信度；所述控制模块，包括：第二执行单元，用于如果所述第四置信度满足第四置信度阈值要求，基于所述语音指令结果控制所述语音交互终端执行所述语音指令和/或控制所述语音交互终端播放所述提示音；发送单元，用于如果所述第四置信度不满足所述第四置信度阈值要求且所述第三置信度不满足所述第三置信度阈值要求，向所述语音交互终端发送空指令。 27.根据权利要求24所述的装置，其中，所述检测模块，包括：检测单元，用于对所述音频信号的识别文本首部进行唤醒词检测；交互置信度确定单元，用于根据所述音频信号的声学特征表示和与所述音频信号的识别文本相关联的文本特征表示中的至少一项，确定所述音频信号的交互置信度，所述交互置信度指示所述音频信号是用于与所述终端进行交互的语音指令的可靠程度；匹配状况确定单元，用于确定所述识别文本与所述音频信号的匹配状况，所述匹配状况指示所述识别文本正确反映所述音频信号包含的信息的程度；结果获取单元，用于根据所述交互置信度、所述匹配状况和唤醒词检测结果，得到所述唤醒词结果和所述语音指令结果。 28.根据权利要求24-27任一项所述的装置，其中，所述装置配置在服务器中；所述获取模块，具体用于接收语音交互终端发送的所述音频信号。 29.一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的语音交互控制方法。 30.一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求10-14中任一项所述的语音交互控制方法。 31.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-14中任一项所述的语音交互控制方法。 32.一种语音交互控制系统，包括：语音交互终端和服务器；所述语音交互终端，用于采集音频信号；检测所述音频信号中的唤醒词；基于检测的唤醒词结果，将唤醒词对应的音频信号和后续音频信号发送至所述服务器，和/或播放提示音；接收并执行所述服务器返回的语音指令和/或提示音播放指令；所述服务器，用于接收所述语音交互终端发送的音频信号；检测接收到的所述音频信号首部的唤醒词和所述唤醒词之后的语音指令；基于检测的唤醒词结果和语音指令结果中的至少一项，向所述语音交互终端下发所述语音指令和/或所述提示音播放指令。 33.根据权利要求32所述的系统，其中，所述唤醒词结果包括第一置信度，所述第一置信度用于表征所述音频信号包括目标唤醒词的可信度；所述语音交互终端在基于检测的唤醒词结果，将唤醒词对应的音频信号和后续音频信号发送至所述服务器时，具体用于如果所述第一置信度满足第一置信度阈值要求，将目标唤醒词对应的音频信号和后续音频信号发送至所述服务器；所述语音交互终端在基于检测的唤醒词结果，播放提示音时，具体用于如果所述第一置信度不满足所述第一置信度阈值要求，播放所述提示音。 34.根据权利要求32或33所述的系统，其中，所述语音交互终端在执行所述服务器返回的语音指令之前或之时，用于不播放所述提示音。 35.根据权利要求33所述的系统，其中，所述唤醒词结果包括第二置信度，所述第二置信度用于表征所述音频信号包括普通唤醒词的可信度；所述语音交互终端在基于检测的唤醒词结果，播放提示音时，具体用于如果所述第二置信度满足第二置信度阈值要求且所述第一置信度不满足所述第一置信度阈值要求，播放所述提示音。 36.根据权利要求35所述的系统，其中，所述普通唤醒词包括至少一个所述目标唤醒词；所述语音交互终端在检测所述音频信号中的唤醒词时，具体用于：采用唤醒词检测模型对所述音频信号中的目标唤醒词进行初次检测，得到初次检测结果；在所述初次检测后的设定时长内对所述目标唤醒词进行再次检测，得到再次检测结果；根据所述初次检测结果和所述再次检测结果，确定所述第一置信度和所述第二置信度。 37.根据权利要求32或33所述的系统，其中，所述语音指令通过对所述音频信号中所述唤醒词之后的部分进行检测得到。 38.根据权利要求33、35或36所述的系统，其中，所述目标唤醒词为小于四音节的词；所述普通唤醒词为四音节及以上的词。 39.根据权利要求33、35或36所述的系统，其中，所述目标唤醒词与所述普通唤醒词的音节数相同。 40.根据权利要求32所述的系统，其中，所述唤醒词结果包括第三置信度，所述第三置信度用于表征所述音频信号首部包括目标唤醒词的可信度；所述服务器在基于检测的唤醒词结果和语音指令结果中的至少一项，向所述语音交互终端下发所述语音指令和/或所述提示音播放指令时，具体用于：如果所述第三置信度满足第三置信度阈值要求，基于所述语音指令结果向所述语音交互终端下发所述语音指令；如果所述第三置信度不满足所述第三置信度阈值要求，向所述语音交互终端下发提示音播放指令。 41.根据权利要求40所述的系统，其中，所述唤醒词结果包括第四置信度，所述第四置信度用于表征所述音频信号首部包括普通唤醒词的可信度；所述服务器在基于检测的唤醒词结果和语音指令结果中的至少一项，向所述语音交互终端下发所述语音指令和/或所述提示音播放指令时，具体用于：如果所述第四置信度满足第四置信度阈值要求，基于所述语音指令结果向所述语音交互终端下发所述语音指令和/或所述提示音播放指令；如果所述第四置信度不满足所述第四置信度阈值要求且所述第三置信度不满足所述第三置信度阈值要求，向所述语音交互终端下发空指令。 42.根据权利要求32所述的系统，其中，所述服务器在检测接收到的所述音频信号首部的唤醒词和所述唤醒词之后的语音指令时，具体用于：对所述音频信号的识别文本首部进行唤醒词检测；根据所述音频信号的声学特征表示和与所述音频信号的识别文本相关联的文本特征表示中的至少一项，确定所述音频信号的交互置信度，所述交互置信度指示所述音频信号是用于与所述终端进行交互的语音指令的可靠程度；确定所述识别文本与所述音频信号的匹配状况，所述匹配状况指示所述识别文本正确反映所述音频信号包含的信息的程度；根据所述交互置信度、所述匹配状况和唤醒词检测结果，得到所述唤醒词结果和所述语音指令结果。

专利专题