信息处理装置、信息处理方法以及记录介质

引用

摘要：

本发明涉及一种信息处理装置，信息处理装置具有：提取单元，其对表示语音的数据的多个局部的特征进行提取，且通过学习来形成特征提取的特性；编码单元，其基于多个局部的特征对表示语音的数据的经时性的一系列的特征进行编码，且通过学习来形成对经时性的一系列的特征进行编码的特性；生成单元，其生成对编码后的经时性的一系列的特征中的与情绪的分类相关的特定的时刻的特征进行加权后的信息，且通过学习来形成对特定的时刻的特征进行加权的特性；以及分类单元，其使用对特定的时刻的特征进行加权后的信息来对与表示语音的数据相对应的情绪进行分类，且通过学习来形成分类的特性。

专利类型：发明专利

申请/专利号：CN202010739985.5

申请日期：2020-07-28

公开/公告号：CN112349301A

公开/公告日：2021-02-09

主分类号：G10L25/63(2013.01)

申请/专利权人:本田技研工业株式会社

发明/设计人:李远超

主申请人地址:日本东京都

专利代理机构:北京聿宏知识产权代理有限公司

代理人:吴大建%霍玉娟

国别省市代码:日本;JP

权利要求：

1.一种信息处理装置，其特征在于，所述信息处理装置具有：提取单元，其对表示语音的数据的多个局部的特征进行提取，且通过学习来形成特征提取的特性；编码单元，其基于所述多个局部的特征对所述表示语音的数据的经时性的一系列的特征进行编码，且通过学习来形成对所述经时性的一系列的特征进行编码的特性；生成单元，其生成对编码后的所述经时性的一系列的特征中的与情绪的分类相关的特定的时刻的特征进行加权后的信息，且通过学习来形成对所述特定的时刻的特征进行加权的特性；以及分类单元，其使用对所述特定的时刻的特征进行加权后的信息来对与所述表示语音的数据相对应的情绪进行分类，且通过学习来形成分类的特性。 2.根据权利要求1所述的信息处理装置，其特征在于，所述分类单元进一步使用对所述特定的时刻的特征进行加权后的信息，来对与所述表示语音的数据相对应的性别进行分类。 3.根据权利要求2所述的信息处理装置，其特征在于，所述分类单元进一步输出对分类后的情绪以及性别的概率进行表示的值。 4.根据权利要求3所述的信息处理装置，其特征在于，通过概率分布来表述所述对分类后的情绪以及性别的概率进行表示的值。 5.根据权利要求1所述的信息处理装置，其特征在于，所述提取单元执行针对所述表示语音的数据而进行的卷积处理。 6.根据权利要求1所述的信息处理装置，其特征在于，各单元以神经网络的形式实现。 7.根据权利要求6所述的信息处理装置，其特征在于，所述编码单元以使用了双方向长短期记忆的神经网络的形式实现。 8.根据权利要求6所述的信息处理装置，其特征在于，所述生成单元以使用了自注意力机制的神经网络的形式实现。 9.根据权利要求1所述的信息处理装置，其特征在于，所述表示语音的数据为所述语音的谱图。 10.根据权利要求9所述的信息处理装置，其特征在于，所述表示语音的数据为将所述语音的谱图以规定的间隔分割而成的多个谱图。 11.一种信息处理方法，其特征在于，所述信息处理方法具有：提取步骤，在所述提取步骤中，对表示语音的数据的多个局部的特征进行提取，且通过学习来形成特征提取的特性；编码步骤，在所述编码步骤中，基于所述多个局部的特征对所述表示语音的数据的经时性的一系列的特征进行编码，且通过学习来形成对所述经时性的一系列的特征进行编码的特性；生成步骤，在所述生成步骤中，生成对编码后的所述经时性的一系列的特征中的与情绪的分类相关的特定的时刻的特征进行加权后的信息，且通过学习来形成对所述特定的时刻的特征进行加权的特性；以及分类步骤，在所述分类步骤中，使用对所述特定的时刻的特征进行加权后的信息来对与所述表示语音的数据相对应的情绪进行分类，且通过学习来形成分类的特性。 12.一种记录介质，其是对用于使计算机作为信息处理装置的各单元而发挥功能的程序进行保存的记录介质，其特征在于，所述信息处理装置具有：提取单元，其对表示语音的数据的多个局部的特征进行提取，且通过学习来形成特征提取的特性；编码单元，其基于所述多个局部的特征对所述表示语音的数据的经时性的一系列的特征进行编码，且通过学习来形成对所述经时性的一系列的特征进行编码的特性；生成单元，其生成对编码后的所述经时性的一系列的特征中的与情绪的分类相关的特定的时刻的特征进行加权后的信息，且通过学习来形成对所述特定的时刻的特征进行加权的特性；以及分类单元，其使用对所述特定的时刻的特征进行加权后的信息来对与所述表示语音的数据相对应的情绪进行分类，且通过学习来形成分类的特性。 13.一种记录介质，其是对通过信息处理装置执行的识别模型进行保存的记录介质，其特征在于，所述识别模型具有：将表示语音的数据作为输入值进行卷积并输出的第一层；将所述第一层的输出值作为输入值来提取并输出所述表示语音的数据的时间序列的特征的第二层；将所述第二层的输出值作为输入值来通过自注意力生成并输出对所述第二层的输出值中的与情绪的分类相关的特定的时刻的特征进行加权后的信息的第三层；以及将所述第三层的输出值作为基础来输出对情绪以及性别的概率进行表示的值的输出层。

专利专题