语音识别方法、装置、计算机设备及介质

引用

摘要：

本申请实施例公开了一种语音识别方法、装置、计算机设备及介质，属于计算机技术领域。该方法包括：对第一用户标识的语音数据进行特征提取，得到所述语音数据的语音特征；获取所述第一用户标识的用户特征；对所述语音特征及所述用户特征进行融合处理，得到所述语音数据对应的融合特征；对所述融合特征进行识别处理，得到所述语音数据对应的文本数据。该方法综合考虑语音数据的内容与用户的说话方式，以使识别处理得到的文本数据更加符合用户的说话方式，与语音数据也更为匹配，提高了语音识别的准确率。

专利类型：发明专利

申请/专利号：CN202010622097.5

申请日期：2020-07-01

公开/公告号：CN111739517A

公开/公告日：2020-10-02

主分类号：G10L15/02(2006.01)

申请/专利权人:腾讯科技(深圳)有限公司

发明/设计人:田植良

主申请人地址:518057 广东省深圳市南山区高新区科技中一路腾讯大厦35层

专利代理机构:北京三高永信知识产权代理有限责任公司

代理人:张所明

国别省市代码:广东;44

权利要求：

1.一种语音识别方法，其特征在于，所述方法包括：对第一用户标识的语音数据进行特征提取，得到所述语音数据的语音特征；获取所述第一用户标识的用户特征，所述用户特征是对所述第一用户标识的用户关系网络进行特征提取得到的，所述用户关系网络包括所述第一用户标识与至少一个第二用户标识之间的关联关系；对所述语音特征及所述用户特征进行融合处理，得到所述语音数据对应的融合特征；对所述融合特征进行识别处理，得到所述语音数据对应的文本数据。 2.根据权利要求1所述的方法，其特征在于，所述获取所述第一用户标识的用户特征，包括：调用第一语音识别模型的用户特征提取层，对所述用户关系网络进行特征提取，得到所述第一用户标识的用户特征。 3.根据权利要求2所述的方法，其特征在于，所述对第一用户标识的语音数据进行特征提取，得到所述语音数据的语音特征的步骤，通过调用所述第一语音识别模型的语音特征提取层执行；所述对所述语音特征及所述用户特征进行融合处理，得到所述语音数据对应的融合特征的步骤，通过调用所述第一语音识别模型的特征融合层执行；所述对所述融合特征进行识别处理，得到所述语音数据对应的文本数据的步骤，通过调用所述第一语音识别模型的语音识别层执行。 4.根据权利要求3所述的方法，其特征在于，所述第一语音识别模型的训练过程包括以下步骤：获取样本用户标识的样本用户关系网络、所述样本用户标识的样本语音数据以及所述样本语音数据对应的样本文本数据；调用所述语音特征提取层，对所述样本语音数据进行特征提取，得到所述样本语音数据的预测语音特征；调用所述样本用户特征获取层，对所述样本用户关系网络进行特征提取，得到所述样本用户标识的预测用户特征；调用所述特征融合层，对所述预测语音特征及所述预测用户特征进行融合处理，得到所述样本语音数据对应的预测融合特征；调用所述语音识别层，对所述预测融合特征进行识别处理，得到所述样本语音数据对应的预测文本数据；根据所述样本文本数据及所述预测文本数据，调整所述第一语音识别模型中的参数。 5.根据权利要求1所述的方法，其特征在于，所述用户关系网络为同构图，所述获取所述第一用户标识的用户特征之前，所述方法还包括：获取所述第一用户标识关联的至少一个第二用户标识；根据所述第一用户标识和所述至少一个第二用户标识，创建同构图，所述同构图中包括所述第一用户标识对应的第一用户节点和所述至少一个第二用户标识对应的第二用户节点，以及所述第一用户节点与至少一个第二用户节点之间的连接线。 6.根据权利要求1所述的方法，其特征在于，所述获取所述第一用户标识的用户特征，包括：根据已建立的对应关系，查询所述第一用户标识的用户特征，所述预设对应关系包括至少一个用户标识及对应的用户特征，所述预设对应关系中任一用户标识对应的用户特征是对所述任一用户标识的用户关系网络进行特征提取得到的。 7.根据权利要求6所述的方法，其特征在于，所述根据已建立的对应关系，查询所述第一用户标识的用户特征之前，所述方法还包括：调用用户特征提取模型，对所述任一用户标识的用户关系网络进行特征提取，得到所述任一用户标识的用户特征；建立所述任一用户标识与所述用户特征的对应关系。 8.根据权利要求7所述的方法，其特征在于，所述用户特征提取模型的训练过程包括以下步骤：获取样本用户标识的样本用户关系网络，以及所述样本用户关系网络中所述样本用户标识的样本用户特征；根据所述样本用户关系网络以及所述样本用户特征，训练所述用户特征提取模型。 9.根据权利要求6所述的方法，其特征在于，所述对第一用户标识的语音数据进行特征提取，得到所述语音数据的语音特征的步骤，通过调用第二语音识别模型的语音特征提取层执行；所述根据已建立的对应关系，查询所述第一用户标识的用户特征的步骤，通过调用所述第二语音识别模型的用户特征获取层执行；所述对所述语音特征及所述用户特征进行融合处理，得到所述语音数据对应的融合特征的步骤，通过调用所述第二语音识别模型的特征融合层执行；所述对所述融合特征进行识别处理，得到所述语音数据对应的文本数据的步骤，通过调用所述第二语音识别模型的语音识别层执行。 10.根据权利要求9所述的方法，其特征在于，所述第二语音识别模型的训练过程包括以下步骤：获取样本用户标识、所述样本用户标识的样本语音数据以及所述样本语音数据对应的样本文本数据；调用所述语音特征提取层，对所述样本语音数据进行特征提取，得到所述样本语音数据的预测语音特征；调用所述用户特征获取层，根据所述已建立的对应关系，查询所述第一用户标识的用户特征；调用所述特征融合层，对所述预测语音特征及所述用户特征进行融合处理，得到所述样本语音数据对应的预测融合特征；调用所述语音识别层，对所述预测融合特征进行识别处理，得到所述样本语音数据对应的预测文本数据；根据所述样本文本数据及所述预测文本数据，调整所述第二语音识别模型中的参数。 11.一种语音识别装置，其特征在于，所述装置包括：语音特征获取模块，用于对第一用户标识的语音数据进行特征提取，得到所述语音数据的语音特征；用户特征获取模块，用于获取所述第一用户标识的用户特征，所述用户特征是对所述第一用户标识的用户关系网络进行特征提取得到的，所述用户关系网络包括所述第一用户标识与至少一个第二用户标识之间的关联关系；融合特征获取模块，用于对所述语音特征及所述用户特征进行融合处理，得到所述语音数据对应的融合特征；语音识别模块，用于对所述融合特征进行识别处理，得到所述语音数据对应的文本数据。 12.根据权利要求11所述的装置，其特征在于，所述用户特征获取模块，用于调用第一语音识别模型的用户特征提取层，对所述用户关系网络进行特征提取，得到所述第一用户标识的用户特征。 13.根据权利要求11所述的装置，其特征在于，所述用户特征获取模块，用于根据已建立的对应关系，查询所述第一用户标识的用户特征，所述预设对应关系包括至少一个用户标识及对应的用户特征，所述预设对应关系中任一用户标识对应的用户特征是对所述任一用户标识的用户关系网络进行特征提取得到的。 14.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行，以实现如权利要求1至10任一权利要求所述的语音识别方法中所执行的操作。 15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行，以实现如权利要求1至10任一权利要求所述的语音识别方法中所执行的操作。

专利专题