在包括多个设备的环境中的语音识别方法和设备

引用

摘要：

提供了一种利用机器学习算法(诸如深度学习等)的人工智能(AI)系统以及AI系统的应用。一种由语音识别设备执行的在存在多个语音识别设备的空间中执行语音识别的语音识别方法，包括：从输入音频信号中提取说话者的语音信号；获得指示所述语音信号与注册说话者的语音信号之间的相似度的第一说话者识别分数；以及基于从所述多个语音识别设备中的另一语音识别设备获得的第二说话者识别分数和第一说话者识别分数，输出针对所述语音信号的语音识别结果。

专利类型：发明专利

申请/专利号：CN201980055917.2

申请日期：2019-10-22

公开/公告号：CN112639965A

公开/公告日：2021-04-09

主分类号：G10L17/02(2006.01)

申请/专利权人:三星电子株式会社

发明/设计人:曹根硕;卢在英;邢知远;张东韩;李在原

主申请人地址:韩国京畿道水原市

专利代理机构:北京铭硕知识产权代理有限公司

代理人:曾世骁%田方

国别省市代码:韩国;KR

权利要求：

1.一种由语音识别设备执行的用于在存在多个语音识别设备的空间中执行语音识别的语音识别方法，所述语音识别方法包括：从输入音频信号中提取说话者的语音信号；获得指示所述语音信号与注册说话者的语音信号之间的相似度的第一说话者识别分数；以及基于从所述多个语音识别设备中的另一语音识别设备获得的第二说话者识别分数并且基于第一说话者识别分数，输出针对所述语音信号的语音识别结果。 2.如权利要求1所述的语音识别方法，还包括：获得第二说话者识别分数，其中，第二说话者识别分数指示由另一语音识别设备接收的语音信号与注册说话者的语音信号之间关于说话者的话语的相似度。 3.如权利要求1所述的语音识别方法，还包括：基于将第一说话者识别分数与第二说话者识别分数进行比较的结果，从所述语音识别设备和所述另一语音识别设备中确定更靠近说话者的设备，其中，输出语音识别结果的步骤包括：基于更靠近说话者的设备被确定为所述语音识别设备，输出针对所述语音信号的语音识别结果。 4.如权利要求1所述的语音识别方法，其中，输出语音识别结果的步骤包括：基于第一说话者识别分数大于第二说话者识别分数，输出针对所述语音信号的语音识别结果。 5.如权利要求3所述的语音识别方法，其中，确定设备更靠近说话者的步骤包括：基于所述语音识别设备的位置、所述另一语音识别设备的位置以及针对说话者识别分数基于说话者与所述语音识别设备之间的距离的改变的先前存储的信息来确定更靠近说话者的设备。 6.如权利要求1所述的语音识别方法，还包括：将脉冲信号输出到所述语音识别设备的外部；通过对响应于脉冲信号而接收的音频信号进行分析来获得关于所述语音识别设备的外部环境的信息；以及基于关于外部环境的信息更新先前存储的与注册说话者的语音信号有关的信息。 7.如权利要求3所述的语音识别方法，其中，确定更靠近说话者的设备的步骤包括：基于针对说话者识别分数基于说话者和所述语音识别设备之间的距离的改变的先前存储的说话者/距离信息、第一说话者识别分数和第二说话者识别分数来确定更靠近说话者的设备，所述方法还包括：基于根据第一说话者识别分数等于或大于阈值而确定更靠近说话者的设备的结果来更新说话者/距离信息。 8.如权利要求3所述的语音识别方法，其中，确定更靠近说话者的设备的步骤包括：基于针对说话者识别分数基于说话者和所述语音识别设备之间的距离的改变的先前存储的说话者/距离信息、第一说话者识别分数和第二说话者识别分数来预测说话者和所述语音识别设备之间的距离；以及基于预测的距离，在所述语音识别设备和所述另一语音识别设备中确定更靠近说话者的设备，所述方法还包括：基于第一说话者识别分数和预测的距离来更新说话者/距离信息。 9.如权利要求1所述的语音识别方法，其中，获得第一说话者识别分数的步骤包括：获得指示所述语音信号与多个注册说话者的语音信号之间的相似度的多个候选说话者识别分数；选择与具有所述多个候选说话者识别分数中的最高值的第一候选说话者识别分数相应的第一注册说话者；以及基于第一候选说话者识别分数等于或大于阈值，获得第一候选说话者识别分数作为第一说话者识别分数。 10.一种位于相同空间中的多个语音识别设备中的语音识别设备，所述语音识别设备包括：接收器，被配置为接收输入音频信号；处理器，被配置为控制所述语音识别设备以执行以下操作：从输入音频信号中提取说话者的语音信号，以及获得指示所述语音信号与注册说话者的语音信号之间的相似度的第一说话者识别分数；以及输出器，包括输出电路，其中，输出器被配置为输出针对所述语音信号的语音识别结果，其中，处理器还被配置为控制输出器基于从所述多个语音识别设备中的另一语音识别设备获得的第二说话者识别分数和第一说话者识别分数来输出针对所述语音信号的语音识别结果。 11.如权利要求10所述的语音识别设备，其中，处理器还被配置为控制所述语音识别设备以执行以下操作：基于将第一说话者识别分数与第二说话者识别分数进行比较的结果，从所述语音识别设备和所述另一语音识别设备中确定更靠近说话者的设备，以及基于更靠近说话者的设备被确定为所述语音识别设备，输出针对所述语音信号的语音识别结果。 12.一种由连接到位于相同空间中的多个语音识别设备的装置执行的执行语音识别的语音识别方法，所述语音识别方法包括：获得指示由第一语音识别设备接收的语音信号与注册说话者的语音信号之间的相似度的第一说话者识别分数；获得指示由第二语音识别设备接收的语音信号与注册说话者的语音信号之间的相似度的第二说话者识别分数；基于第一说话者识别分数和第二说话者识别分数来确定第一语音识别设备和第二语音识别设备中更靠近说话者的设备；以及基于更靠近说话者的设备被确定为第一语音识别设备，将针对第一语音信号的语音识别结果输出到第一语音识别设备。 13.如权利要求12所述的语音识别方法，其中，确定更靠近说话者的设备的步骤包括：基于第一语音识别设备的位置、第二语音识别设备的位置以及针对说话者识别分数基于说话者与语音识别设备之间的距离的改变的先前存储的信息来确定更靠近说话者的设备。 14.如权利要求12所述的语音识别方法，其中，确定更靠近说话者的设备的步骤包括：基于针对说话者识别分数基于说话者和语音识别设备之间的距离的改变的先前存储的说话者/距离信息、第一说话者识别分数和第二说话者识别分数来确定更靠近说话者的设备；以及基于从说话者到第一语音识别设备的预测距离来更新说话者/距离信息，并且基于第一说话者识别分数等于或大于阈值来更新第一说话者识别分数。 15.一种非暂时性计算机可读记录介质，其中，在所述非暂时性计算机可读记录介质上存储有用于执行如权利要求1所述的方法的程序。

专利专题