语音识别装置、语音识别方法及记录介质

引用

摘要：

一种语音识别装置、语音识别方法及记录介质。语音识别装置具备：取得部，取得第1说话者及1个以上的第2说话者的会话的各个语音；存储部，存储第1说话者及1个以上的第2说话者的会话的各个语音；输入部，受理操作输入；发言开始检测部，与向输入部的操作输入相应地按每个语音检测开始发言的开始位置；发言者区别部，基于按每个语音设定的、受理了向输入部的操作输入的第1时刻以及表示发言开始检测部根据各个语音检测出的发言的开始位置的第2时刻，区别是进行了操作输入的第1说话者还是未进行操作输入的1个以上的第2说话者。然后，被进行了区别的处理的第1说话者及1个以上的第2说话者的各个语音供语音识别部语音识别。

专利类型：发明专利

申请/专利号：CN202010230365.9

申请日期：2020-03-23

公开/公告号：CN111755000A

公开/公告日：2020-10-09

主分类号：G10L15/22(2006.01)

申请/专利权人:松下电器产业株式会社

发明/设计人:西川刚树;古川博基;坂口敦

主申请人地址:日本大阪府

专利代理机构:永新专利商标代理有限公司

代理人:高迪

国别省市代码:日本;JP

权利要求：

1.一种语音识别装置，是供第1说话者与作为所述第1说话者的会话对象的1个以上的第2说话者进行会话的语音识别装置，具备：取得部，取得所述第1说话者及所述1个以上的第2说话者的会话的各个语音；存储部，存储所述取得部所取得的所述第1说话者及所述1个以上的第2说话者的会话的所述各个语音；输入部，至少受理来自所述第1说话者的操作输入；发言开始检测部，与向所述输入部的操作输入相应地，根据所述存储部中存储的所述各个语音按每个语音检测开始发言的开始位置；以及发言者区别部，基于按每个语音设定的、受理了向所述输入部的操作输入的第1时刻以及表示所述发言开始检测部根据所述各个语音检测出的发言的开始位置的第2时刻，从所述第1说话者及所述1个以上的第2说话者之中，区别是向所述输入部进行了操作输入的所述第1说话者还是未向所述输入部进行操作输入的所述1个以上的第2说话者；由所述发言者区别部进行了所述区别的处理的所述第1说话者及所述1个以上的第2说话者的所述各个语音中的开始位置以后的语音，供语音识别部进行语音识别。 2.如权利要求1所述的语音识别装置，所述发言者区别部为：对按所述第1说话者及所述1个以上的第2说话者的会话的所述各个语音设定的所述第1时刻与所述第2时刻进行比较，在所述第1时刻是与所述第2时刻相比时间更早的时刻的情况下，从所述第1说话者及所述1个以上的第2说话者之中区别所述第1说话者，在所述第2时刻是与所述第1时刻相比时间更早的时刻的情况下，从所述第1说话者及所述1个以上的第2说话者之中区别所述1个以上的第2说话者。 3.如权利要求1或者2所述的语音识别装置，在从所述第1说话者及所述1个以上的第2说话者之中区别了所述第1说话者的情况下，所述语音识别部对所述第1说话者所发言的语音进行语音识别，在从所述第1说话者及所述1个以上的第2说话者之中区别了第2说话者的情况下，所述语音识别部对所述第2说话者所发言的语音进行语音识别。 4.如权利要求1或者2所述的语音识别装置，所述发言者区别部根据规定期间中的所述第1说话者及所述1个以上的第2说话者的会话的所述各个语音，区别是所述第1说话者还是所述1个以上的第2说话者，所述规定期间是所述输入部受理了操作输入的所述第1时刻前后的期间。 5.如权利要求1或者2所述的语音识别装置，在针对向所述输入部进行了操作输入的所述第1说话者所发言的语音进行了语音识别后，所述存储部为了存储所述1个以上的第2说话者的语音，开始存储所述取得部所取得的所述各个语音。 6.如权利要求1或者2所述的语音识别装置，具备：通信部，能够与具有所述语音识别部的云服务器进行通信，所述通信部将由所述发言者区别部进行了所述区别的处理的所述第1说话者及所述1个以上的第2说话者的所述各个语音发送至所述云服务器，接收所述云服务器的所述语音识别部对所述各个语音的开始位置以后的语音进行了语音识别而得到的结果。 7.如权利要求1或者2所述的语音识别装置，具备：所述语音识别部，对由所述发言者区别部进行了所述区别的处理的所述第1说话者及所述1个以上的第2说话者的所述各个语音中的开始位置以后的语音进行语音识别。 8.如权利要求1或者2所述的语音识别装置，所述输入部是在所述语音识别装置上设置的1个操作按钮。 9.如权利要求1或者2所述的语音识别装置，所述输入部在所述第1说话者及所述1个以上的第2说话者各自每次发言时，受理来自所述第1说话者的操作输入。 10.一种语音识别方法，是供第1说话者与作为所述第1说话者的会话对象的1个以上的第2说话者进行会话的语音识别方法，包含：取得所述第1说话者及所述1个以上的第2说话者的会话的各个语音；将取得的所述第1说话者及所述1个以上的第2说话者的会话的所述各个语音存储至存储部；至少受理从所述第1说话者向输入部的操作输入；与向所述输入部的操作输入相应地，根据所述存储部中存储的所述各个语音按每个语音检测开始发言的开始位置；基于按每个语音设定的、受理了向所述输入部的操作输入的第1时刻以及表示根据所述各个语音检测出的发言的开始位置的第2时刻，从所述第1说话者及所述1个以上的第2说话者之中，区别是向所述输入部进行了操作输入的所述第1说话者还是未向所述输入部进行操作输入的所述1个以上的第2说话者；以及被进行了所述区别的处理的所述第1说话者及所述1个以上的第2说话者的所述各个语音中的开始位置以后的语音，用于语音识别。 11.一种计算机可读取的非易失性的记录介质，记录了用于使计算机执行权利要求10所述的语音识别方法的程序。

专利专题