语音交互方法、装置、设备及存储介质

引用

摘要：

本公开提出了一种语音交互方法、装置、设备及存储介质。针对接收到的第一语音进行唤醒检测；在唤醒成功的情况下，获取第一语音的第一声纹特征；接收第一语音之后的第二语音；确定第二语音中与第一声纹特征相匹配的语音部分的语音识别结果；基于语音识别结果，为用户提供服务。由此可以解决因不能区分说话人，而导致的语音识别错误的问题。

专利类型：发明专利

申请/专利号：CN201910196765.X

申请日期：2019-03-15

公开/公告号：CN111768769A

公开/公告日：2020-10-13

主分类号：G10L15/22(2006.01)

申请/专利权人:阿里巴巴集团控股有限公司

发明/设计人:曹元斌;张智超;徐涛

主申请人地址:英属开曼群岛大开曼资本大厦一座四层847号邮箱

专利代理机构:北京展翼知识产权代理事务所(特殊普通合伙)

代理人:屠长存

国别省市代码:开曼群岛;KY

权利要求：

1.一种语音交互方法，其特征在于，包括：针对接收到的第一语音进行唤醒检测；在唤醒成功的情况下，获取所述第一语音的第一声纹特征；接收所述第一语音之后的第二语音；确定所述第二语音中与所述第一声纹特征相匹配的语音部分的语音识别结果；基于所述语音识别结果，为用户提供服务。 2.根据权利要求1所述的语音交互方法，其特征在于，所述确定所述第二语音中与所述第一声纹特征相匹配的语音输入部分的语音识别结果的步骤包括：识别所述第二语音的文本内容；获取所述文本内容中各个字或词对应的所述第二语音中的语音片段的第二声纹特征；确定所述第二声纹特征与所述第一声纹特征的相似度大于预定阈值的语音片段；基于所确定的语音片段所对应的字或词，得到所述语音识别结果。 3.根据权利要求1所述的语音交互方法，其特征在于，还包括：去除所述第二语音中与所述第一声纹特征不匹配的语音部分的语音识别结果。 4.根据权利要求3所述的语音交互方法，其特征在于，所述去除所述第二语音中与所述第一声纹特征不匹配的语音部分的语音识别结果的步骤包括：识别所述第二语音的文本内容；获取所述文本内容中各个字或词对应的所述第二语音中的语音片段的第二声纹特征；去除所述第二声纹特征与所述第一声纹特征的相似度小于预定阈值的语音片段所对应的字或词。 5.根据权利要求1所述的语音交互方法，其特征在于，所述第一声纹特征为所述第一语音中与唤醒词对应的语音部分的声纹特征。 6.根据权利要求1所述的语音交互方法，其特征在于，还包括：将所述第一声纹特征与声纹特征库中的声学特征进行比较，其中，所述声纹特征库中的声学特征为已注册用户的声学特征；在所述声纹特征库中不存在与所述第一声纹特征相匹配的声学特征的情况下，将所述第一声纹特征注册为新用户，并将所述第一声纹特征保存到所述声纹特征库中。 7.一种语音交互方法，其特征在于，包括：针对接收到的语音进行唤醒检测；在唤醒成功的情况下，获取所述语音中与唤醒词对应的第一语音部分的第一声纹特征；确定所述语音中与所述第一声纹特征相匹配的第二语音部分的语音识别结果；基于所述语音识别结果，为用户提供服务。 8.根据权利要求7所述的语音交互方法，其特征在于，所述确定所述语音中与所述第一声纹特征相匹配的第二语音部分的语音识别结果的步骤包括：识别所述语音的文本内容；获取所述文本内容中各个字或词对应的所述语音中的语音片段的第二声纹特征；确定所述第二声纹特征与所述第一声纹特征的相似度大于预定阈值的语音片段；基于所确定的语音片段所对应的字或词，得到所述语音识别结果。 9.根据权利要求7所述的语音交互方法，其特征在于，还包括：去除所述语音中与所述第一声纹特征不匹配的第三语音部分的语音识别结果。 10.根据权利要求9所述的语音交互方法，其特征在于，所述去除所述语音中与所述第一声纹特征不匹配的第三语音部分的语音识别结果的步骤包括：识别所述语音的文本内容；获取所述文本内容中各个字或词对应的所述语音中的语音片段的第二声纹特征；去除所述第二声纹特征与所述第一声纹特征的相似度小于预定阈值的语音片段所对应的字或词。 11.根据权利要求7所述的语音交互方法，其特征在于，还包括：将所述第一声纹特征与声纹特征库中的声学特征进行比较，其中，所述声纹特征库中的声学特征为已注册用户的声学特征；在所述声纹特征库中不存在与所述第一声纹特征相匹配的声学特征的情况下，将所述第一声纹特征注册为新用户，并将所述第一声纹特征保存到所述声纹特征库中。 12.一种语音交互方法，其特征在于，包括：针对接收到的第一语音进行唤醒检测；在唤醒成功的情况下，获取所述第一语音的第一声学特征；接收所述第一语音输入之后的第二语音；确定所述第二语音中与所述第一声学特征相匹配的语音部分的语音识别结果；基于所述语音识别结果，为用户提供服务。 13.一种语音交互方法，其特征在于，包括：针对接收到的语音进行唤醒检测；在唤醒成功的情况下，获取所述语音中与唤醒词对应的第一语音部分的第一声学特征；确定所述语音中与所述第一声学特征相匹配的第二语音部分的语音识别结果；基于所述语音识别结果，为用户提供服务。 14.一种用于提供语音交互服务的电子设备，其特征在于，包括：语音接收装置，用于接收用户的语音；唤醒检测装置，用于针对接收到的语音进行唤醒检测；声学特征获取装置，用于在唤醒成功的情况下，获取所述语音中与唤醒词对应的第一语音部分的第一声纹特征；语音识别结果确定装置，用于确定所述语音中与所述第一声纹特征相匹配的第二语音部分的语音识别结果；服务装置，用于基于所述语音识别结果，为用户提供服务。 15.根据权利要求14所述的电子设备，其特征在于，所述电子设备为智能音箱。 16.一种语音交互装置，其特征在于，包括：唤醒检测模块，用于针对接收到的第一语音进行唤醒检测；获取模块，用于在唤醒成功的情况下，获取所述第一语音的第一声学特征；接收模块，用于接收所述第一语音之后的第二语音；确定模块，用于确定所述第二语音中与所述第一声纹特征相匹配的语音输入部分的语音识别结果；服务模块，用于基于所述语音识别结果，为用户提供服务。 17.一种语音交互装置，其特征在于，包括：唤醒检测模块，用于针对接收到的语音进行唤醒检测；获取模块，用于在唤醒成功的情况下，获取所述语音中与唤醒词对应的第一语音部分的第一声学特征；确定模块，用于确定所述语音中与所述第一声学特征相匹配的第二语音部分的语音识别结果；服务模块，用于基于所述语音识别结果，为用户提供服务。 18.一种计算设备，包括：处理器；以及存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1至13中任何一项所述的方法。 19.一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1至13中任一项所述的方法。

专利专题