语音处理装置、会议系统以及语音处理方法
本发明的目的在于提供一种不会妨碍用户的会话且能够防止执行用户不期望的命令的语音处理装置、会议系统、以及语音处理方法。语音处理装置具备:语音接收部,其接收语音;图像获取部,其获取由拍摄部拍摄的拍摄图像;说话者确定部,其基于由所述语音接收部接收的所述语音、和由所述图像获取部获取的所述拍摄图像,对说话者进行确定;语音判定部,其基于由所述语音接收部接收的所述语音、和所述拍摄图像中包含的由所述说话者确定部确定出的所述说话者的图像,判定该语音是否是特定单词;以及语音发送部,其基于所述语音判定部的判定结果,对由所述语音接收部接收的所述语音的发送目的地进行切换。
发明专利
CN202010110772.6
2020-02-24
CN111667822A
2020-09-15
G10L15/22(2006.01)
夏普株式会社
蛭川庆子;寺田智
日本国大阪府堺市堺区匠町1番地
深圳市赛恩倍吉知识产权代理有限公司
王娟
日本;JP
1.一种语音处理装置,其特征在于,具备: 语音接收部,其接收语音; 图像获取部,其获取由拍摄部拍摄的拍摄图像; 说话者确定部,其基于由所述语音接收部接收的所述语音和由所述图像获取部获取的所述拍摄图像,对说话者进行确定; 语音判定部,其基于由所述语音接收部接收的所述语音和所述拍摄图像中包含的由所述说话者确定部确定出的所述说话者的图像,判定所述语音是否是用于开始接受规定的命令的特定单词;以及 语音发送部,其基于所述语音判定部的判定结果,对由所述语音接收部接收的所述语音的发送目的地进行切换。 2.根据权利要求1所述的语音处理装置,其特征在于, 在由所述语音判定部判定为由所述语音接收部接收的所述语音为所述特定单词的情况下,所述语音发送部将由所述语音接收部在所述特定单词之后接收的语音作为命令语音,并发送至执行所述规定的命令的服务器装置。 3.根据权利要求1或2所述的语音处理装置,其特征在于, 在由所述语音判定部判定为由所述语音接收部接收的所述语音不是所述特定单词的情况下,所述语音发送部将所述语音发送至规定的外部设备。 4.根据权利要求1至3中任一项所述的语音处理装置,其特征在于, 在由所述语音接收部接收的所述语音与所述特定单词一致且所述拍摄图像中包含的所述说话者的面部的方向或视线朝向所述拍摄部的情况下,所述语音判定部判定为由所述语音接收部接收的所述语音为所述特定单词。 5.根据权利要求1至4中任一项所述的语音处理装置,其特征在于, 所述语音发送部基于所述语音判定部的判定结果切换第一发送模式和第二发送模式,其中,所述第一发送模式将由所述语音接收部接收的所述语音发送至执行所述规定的命令的服务器装置,所述第二发送模式将由所述语音接收部接收的所述语音发送至规定的外部设备。 6.根据权利要求5所述的语音处理装置,其特征在于, 还具备显示处理部,所述显示处理部显示表示所述第一发送模式或所述第二发送模式的识别信息。 7.根据权利要求5或6所述的语音处理装置,其特征在于, 还具备调节处理部,在由所述语音发送部从所述第二发送模式切换为所述第一发送模式的情况下,所述调节处理部将收集所述语音的麦克风的指向性调节为由所述说话者确定部确定出的所述说话者的方向。 8.根据权利要求2所述的语音处理装置,其特征在于, 还具备响应处理部,所述响应处理部从所述服务器装置获取与在所述服务器装置中执行的所述命令对应的响应,并输出所述响应。 9.一种会议系统,包含经由网络相互连接的第一语音处理装置以及第二语音处理装置,并能够将由所述第一语音处理装置接收的语音发送至所述第二语音处理装置,将由所述第二语音处理装置接收的语音发送至所述第一语音处理装置, 所述会议系统的特征在于, 所述第一语音处理装置具备: 语音接收部,其接收语音; 图像获取部,其获取由拍摄部拍摄的拍摄图像; 说话者确定部,其基于由所述语音接收部接收的所述语音、和由所述图像获取部获取的所述拍摄图像,对说话者进行确定; 语音判定部,其基于由所述语音接收部接收的所述语音、和所述拍摄图像中包含的由所述说话者确定部确定出的所述说话者的图像,判定所述语音是否是用于开始接受规定的命令的特定单词;以及 语音发送部,其基于所述语音判定部的判定结果,对由所述语音接收部接收的所述语音的发送目的地进行切换, 在由所述语音判定部判定为由所述语音接收部接收的所述语音为所述特定单词的情况下,所述语音发送部将由所述语音接收部在所述特定单词之后接收的语音作为命令语音,并发送至执行所述规定的命令的服务器装置, 在由所述语音判定部判定为由所述语音接收部接收的所述语音不是所述特定单词的情况下,所述语音发送部将所述语音发送至所述第二语音处理装置。 10.根据权利要求9所述的会议系统,其特征在于, 所述第二语音处理装置输出从所述第一语音处理装置接收的所述语音。 11.一种语音处理方法,其特征在于,通过一个或多个处理器执行如下步骤: 语音接收步骤,接收语音; 图像处理步骤,获取由拍摄部拍摄的拍摄图像; 说话者确定步骤,基于由所述语音接收步骤接收的所述语音、和通过所述图像处理步骤获取的所述拍摄图像,对说话者进行确定; 语音判定步骤,基于由所述语音接收步骤接收的所述语音、和所述拍摄图像中包含的通过所述说话者确定步骤确定出的所述说话者的图像,判定所述语音是否是用于开始接受规定的命令的特定单词;以及 语音发送步骤,基于所述语音判定步骤的判定结果,对通过所述语音接收步骤接收的所述语音的发送目的地进行切换。