基于多模式标识的语义识别方法、装置和计算机设备

引用

摘要：

本申请涉及人工智能技术领域，应用于智慧城市领域中，揭示了一种基于多模式标识的语义识别方法、装置和计算机设备，获取第一语音信息；将第一语音信息输入第一语音识别模型，得到第一识别结果；若第一识别结果包括两个以上的识别组，则提取行为特征语音片段；输入第一行为模式识别模型，得到第一行为模式标识；感测得到手指压力信号和掌心温度信号；输入第二行为模式识别模型，得到第二行为模式标识；若行为模式标识匹配，并且第一行为模式标识存在第一识别结果中，则选出指定识别组；将指定识别组中的识别语义文本作为最终识别结果。从而提高语义识别的准确性。本申请还涉及区块链技术，第一和第二行为模式识别模型可存储于区块链中。

专利类型：发明专利

申请/专利号：CN202010733121.2

申请日期：2020-07-27

公开/公告号：CN111883112A

公开/公告日：2020-11-03

主分类号：G10L15/18(2013.01)

申请/专利权人:中国平安人寿保险股份有限公司

发明/设计人:邹芳;曹磊;李沛恒

主申请人地址:518000 广东省深圳市福田区益田路5033号平安金融中心14、15、16、41、44、45、46层

专利代理机构:深圳市明日今典知识产权代理事务所(普通合伙)

代理人:王杰辉%曹勇

国别省市代码:广东;44

权利要求：

1.一种基于多模式标识的语义识别方法，其特征在于，应用于第一移动终端，包括：通过所述第一移动终端上预设的收音设备，获取输入的第一语音信息；将所述第一语音信息输入预设的第一语音识别模型中进行处理，从而得到所述第一语音识别模型输出的第一识别结果；其中所述第一识别结果由至少一个识别组构成，每个识别组均包括一个识别语义文本和一个行为模式标识；判断所述第一识别结果是否包括两个以上的识别组；若所述第一识别结果包括两个以上的识别组，则根据预设的行为特征语音提取方法，从所述第一语音信息中提取至少两个行为特征语音片段，其中所述至少两个行为特征语音片段两两之间在时间上不连续；将所述至少两个行为特征语音片段输入预设的第一行为模式识别模型中进行处理，从而得到所述第一行为模式识别模型输出的第一行为模式标识；通过所述第一移动终端的侧面预设的压力传感器，感测得到所述第一移动终端的使用者的手指压力信号，以及，通过所述第一移动终端的背面预设的温度传感器，感测得到所述第一移动终端的使用者的手掌的掌心温度信号；其中，所述第一移动终端的背面指与所述第一移动终端的屏幕面相反的一面；将所述手指压力信号和所述掌心温度信号输入预设的第二行为模式识别模型中进行处理，从而得到所述第二行为模式识别模型输出的第二行为模式标识；判断所述第一行为模式标识与所述第二行为模式标识是否匹配，以及判断所述第一行为模式标识是否存在于所述第一识别结果中；若所述第一行为模式标识与所述第二行为模式标识匹配，并且所述第一行为模式标识存在于所述第一识别结果中，则从所述第一识别结果中选出指定识别组，其中所述指定识别组中的行为模式标识为所述第一行为模式标识；将所述指定识别组中的识别语义文本作为对应于所述第一语音信息的最终识别结果。 2.根据权利要求1所述的基于多模式标识的语义识别方法，其特征在于，所述第一语音信息是实时获取的语音信息，所述第一语音识别模型包括顺序连接的编码用长短期记忆网络和解码用长短期记忆网络，所述将所述第一语音信息输入预设的第一语音识别模型中进行处理，从而得到所述第一语音识别模型输出的第一识别结果；其中所述第一识别结果由至少一个识别组构成，每个识别组均包括一个识别语义文本和一个行为模式标识的步骤,包括：执行第一次编码操作，所述第一次编码操指实时获取第一时长的子语音信息，并将所述第一时长的子语音信息输入预设的第一语音识别模型中的编码用长短期记忆网络进行处理，从而得到所述编码用长短期记忆网络输出的第一隐藏状态向量序列；执行第一次解码操作，所述第一次解码操指将所述第一隐藏状态向量序列输入所述第一语音识别模型中的解码用长短期记忆网络中进行处理，从而得到所述解码用长短期记忆网络输出的第一子识别语义文本和与所述第一子识别语义文本对应的行为模式标识；依次执行第二次编码操作、第二次解码操作、...、第n次编码操作、第n次解码操作，其中所述第二次编码操作指实时获取第二时长的子语音信息，并将所述第二时长的子语音信息输入预设的第一语音识别模型中的编码用长短期记忆网络进行处理，从而得到所述编码用长短期记忆网络输出的第二隐藏状态向量序列，并且所述第二时长与所述第一时长的差值等于预设时间差；所述第二次解码操作指将所述第二隐藏状态向量序列输入所述第一语音识别模型中的解码用长短期记忆网络中进行处理，从而得到所述解码用长短期记忆网络输出的第二子识别语义文本和与所述第二子识别语义文本对应的行为模式标识；...；所述第n次编码操作指实时获取第n时长的子语音信息，并将所述第n时长的子语音信息输入预设的第一语音识别模型中的编码用长短期记忆网络进行处理，从而得到所述编码用长短期记忆网络输出的第n隐藏状态向量序列，并且所述第n时长与第n-1时长的差值等于预设时间差，所述第n时长的子语音信息等于所述第一语音信息；所述第n次解码操作指将所述第n隐藏状态向量序列输入所述第一语音识别模型中的解码用长短期记忆网络中进行处理，从而得到所述解码用长短期记忆网络输出的第n子识别语义文本和与所述第n子识别语义文本对应的行为模式标识；根据预设的数据合并方法，对第一子识别语义文本和与第一子识别语义文本对应的行为模式标识、第二子识别语义文本和与第二子识别语义文本对应的行为模式标识、...以及第n子识别语义文本和与第n子识别语义文本对应的行为模式标识进行合并处理，从而得到所述第一识别结果；其中所述第一识别结果由至少一个识别组构成，每个识别组均包括一个识别语义文本和一个行为模式标识。 3.根据权利要求2所述的基于多模式标识的语义识别方法，其特征在于，所述根据预设的数据合并方法，对第一子识别语义文本和与第一子识别语义文本对应的行为模式标识、第二子识别语义文本和与第二子识别语义文本对应的行为模式标识、...以及第n子识别语义文本和与第n子识别语义文本对应的行为模式标识进行合并处理，从而得到所述第一识别结果的步骤,包括：判断第n子识别语义文本是否完全包含第n-1子识别语义文本，判断第n-1子识别语义文本是否完全包含第n-2子识别语义文本，...，以及判断第二子识别语义文本是否完全包含第一子识别语义文本；若第n子识别语义文本完全包含第n-1子识别语义文本，并且第n-1子识别语义文本完全包含第n-2子识别语义文本，...，并且第二子识别语义文本完全包含第一子识别语义文本，则生成仅包括一个识别组的第一识别结果，该识别组仅包括所述第n子识别语义文本和与所述第n子识别语义文本对应的行为模式标识。 4.根据权利要求1所述的基于多模式标识的语义识别方法，其特征在于，所述将所述手指压力信号和所述掌心温度信号输入预设的第二行为模式识别模型中进行处理，从而得到所述第二行为模式识别模型输出的第二行为模式标识的步骤之前，包括：调取预收集的数据集，所述数据集由多个数据组构成，每个数据组均包括一个手指压力信号、一个掌心温度信号和一个人工标记的行为模式标识；将所述数据集中的数据组按预设比例划分为训练组和验证组；调取预设的神经网络模型，并将所述训练组中的数据输入所述神经网络模型中进行训练，从而得到初始识别模型；采用所述验证组中的数据对所述初始识别模型进行验证，从而得到验证结果，其中所述验证结果包括验证通过或者验证不通过；判断所述验证结果是否为验证通过；若所述验证结果为验证通过，则将所述初始识别模型记为第二行为模式识别模型。 5.根据权利要求1所述的基于多模式标识的语义识别方法，其特征在于，所述第一语音信息是所述第一移动终端与第二移动终端进行语音通话时的语音信息，所述将所述指定识别组中的识别语义文本作为对应于所述第一语音信息的最终识别结果的步骤，包括：向第二移动终端发送参考语义文本获取请求；所述参考语义文本指进行所述语音通话时，所述第二移动终端对第二语音信息进行语义识别得到的语义文本；所述第二语音信息指进行所述语音通话时，所述第二移动终端通过所述第二移动终端上预设的收音设备获取的语音信息；获取所述第二移动终端发送的参考语义文本，并将所述指定识别组中的识别语义文本和所述参考语义文本根据时间顺序组成对话文本；将所述对话文本输入预设的流畅性分析模型中进行处理，从而得到所述流畅性分析模型输出的分析结果，所述分析结果包括流畅或者不流畅；判断所述分析结果是否为流畅；若所述分析结果为流畅，则将所述指定识别组中的识别语义文本作为对应于所述第一语音信息的最终识别结果。 6.一种基于多模式标识的语义识别装置，其特征在于，应用于第一移动终端，包括：第一语音信息获取单元，用于通过所述第一移动终端上预设的收音设备，获取输入的第一语音信息；第一识别结果获取单元，用于将所述第一语音信息输入预设的第一语音识别模型中进行处理，从而得到所述第一语音识别模型输出的第一识别结果；其中所述第一识别结果由至少一个识别组构成，每个识别组均包括一个识别语义文本和一个行为模式标识；识别组判断单元，用于判断所述第一识别结果是否包括两个以上的识别组；行为特征语音片段提取单元，用于若所述第一识别结果包括两个以上的识别组，则根据预设的行为特征语音提取方法，从所述第一语音信息中提取至少两个行为特征语音片段，其中所述至少两个行为特征语音片段两两之间在时间上不连续；第一行为模式标识获取单元，用于将所述至少两个行为特征语音片段输入预设的第一行为模式识别模型中进行处理，从而得到所述第一行为模式识别模型输出的第一行为模式标识；信号感测单元，用于通过所述第一移动终端的侧面预设的压力传感器，感测得到所述第一移动终端的使用者的手指压力信号，以及，通过所述第一移动终端的背面预设的温度传感器，感测得到所述第一移动终端的使用者的手掌的掌心温度信号；其中，所述第一移动终端的背面指与所述第一移动终端的屏幕面相反的一面；第二行为模式标识获取单元，用于将所述手指压力信号和所述掌心温度信号输入预设的第二行为模式识别模型中进行处理，从而得到所述第二行为模式识别模型输出的第二行为模式标识；模式标识判断单元，用于判断所述第一行为模式标识与所述第二行为模式标识是否匹配，以及判断所述第一行为模式标识是否存在于所述第一识别结果中；指定识别组选取单元，用于若所述第一行为模式标识与所述第二行为模式标识匹配，并且所述第一行为模式标识存在于所述第一识别结果中，则从所述第一识别结果中选出指定识别组，其中所述指定识别组中的行为模式标识为所述第一行为模式标识；最终识别结果获取单元，用于将所述指定识别组中的识别语义文本作为对应于所述第一语音信息的最终识别结果。 7.根据权利要求6所述的基于多模式标识的语义识别装置，其特征在于，所述第一语音信息是实时获取的语音信息，所述第一语音识别模型包括顺序连接的编码用长短期记忆网络和解码用长短期记忆网络，所述第一识别结果获取单元,包括：第一次编码操作执行子单元，用于执行第一次编码操作，所述第一次编码操指实时获取第一时长的子语音信息，并将所述第一时长的子语音信息输入预设的第一语音识别模型中的编码用长短期记忆网络进行处理，从而得到所述编码用长短期记忆网络输出的第一隐藏状态向量序列；第一次解码操作执行子单元，用于执行第一次解码操作，所述第一次解码操指将所述第一隐藏状态向量序列输入所述第一语音识别模型中的解码用长短期记忆网络中进行处理，从而得到所述解码用长短期记忆网络输出的第一子识别语义文本和与所述第一子识别语义文本对应的行为模式标识；多次编码与解码子单元，用于依次执行第二次编码操作、第二次解码操作、...、第n次编码操作、第n次解码操作，其中所述第二次编码操作指实时获取第二时长的子语音信息，并将所述第二时长的子语音信息输入预设的第一语音识别模型中的编码用长短期记忆网络进行处理，从而得到所述编码用长短期记忆网络输出的第二隐藏状态向量序列，并且所述第二时长与所述第一时长的差值等于预设时间差；所述第二次解码操作指将所述第二隐藏状态向量序列输入所述第一语音识别模型中的解码用长短期记忆网络中进行处理，从而得到所述解码用长短期记忆网络输出的第二子识别语义文本和与所述第二子识别语义文本对应的行为模式标识；...；所述第n次编码操作指实时获取第n时长的子语音信息，并将所述第n时长的子语音信息输入预设的第一语音识别模型中的编码用长短期记忆网络进行处理，从而得到所述编码用长短期记忆网络输出的第n隐藏状态向量序列，并且所述第n时长与第n-1时长的差值等于预设时间差，所述第n时长的子语音信息等于所述第一语音信息；所述第n次解码操作指将所述第n隐藏状态向量序列输入所述第一语音识别模型中的解码用长短期记忆网络中进行处理，从而得到所述解码用长短期记忆网络输出的第n子识别语义文本和与所述第n子识别语义文本对应的行为模式标识；数据合并子单元，用于根据预设的数据合并方法，对第一子识别语义文本和与第一子识别语义文本对应的行为模式标识、第二子识别语义文本和与第二子识别语义文本对应的行为模式标识、...以及第n子识别语义文本和与第n子识别语义文本对应的行为模式标识进行合并处理，从而得到所述第一识别结果；其中所述第一识别结果由至少一个识别组构成，每个识别组均包括一个识别语义文本和一个行为模式标识。 8.根据权利要求7所述的基于多模式标识的语义识别装置，其特征在于，所述数据合并子单元,包括：子识别语义文本判断模块，用于判断第n子识别语义文本是否完全包含第n-1子识别语义文本，判断第n-1子识别语义文本是否完全包含第n-2子识别语义文本，...，以及判断第二子识别语义文本是否完全包含第一子识别语义文本；第一识别结果生成模块，用于若第n子识别语义文本完全包含第n-1子识别语义文本，并且第n-1子识别语义文本完全包含第n-2子识别语义文本，...，并且第二子识别语义文本完全包含第一子识别语义文本，则生成仅包括一个识别组的第一识别结果，该识别组仅包括所述第n子识别语义文本和与所述第n子识别语义文本对应的行为模式标识。 9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。 10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。

专利专题