语音识别方法、装置、设备及存储介质

引用

摘要：

本申请公开了语音识别方法、装置、设备及存储介质，涉及语音技术领域。具体实现方案为：获取目标用户的语音数据；对所述语音数据进行识别，得到初始语音识别结果；获取针对所述目标用户的识别结果调整策略，并确定所述识别结果调整策略包含自定义调整模式后，获取针对所述目标用户的自定义词库；基于所述目标用户的自定义词库对所述初始语音识别结果进行调整。如此，能够基于用户的自定义词库来对初始语音识别结果进行调整，进而提升语音识别结果与目标用户所输入的语音数据的匹配程度，提升用户体验。

专利类型：发明专利

申请/专利号：CN202011003399.0

申请日期：2020-09-22

公开/公告号：CN112102833A

公开/公告日：2020-12-18

主分类号：G10L15/22(2006.01)

申请/专利权人:北京百度网讯科技有限公司

发明/设计人:潘璠

主申请人地址:100085 北京市海淀区上地十街10号百度大厦2层

专利代理机构:北京市铸成律师事务所

代理人:阎敏%邓海鸿

国别省市代码:北京;11

权利要求：

1.一种语音识别方法，包括：获取目标用户的语音数据；对所述语音数据进行识别，得到初始语音识别结果；获取针对所述目标用户的识别结果调整策略，并确定所述识别结果调整策略包含自定义调整模式后，获取针对所述目标用户的自定义词库；基于所述目标用户的自定义词库对所述初始语音识别结果进行调整，得到针对所述目标用户的目标语音识别结果。 2.根据权利要求1所述的方法，其中，所述基于所述目标用户的自定义词库对所述初始语音识别结果进行调整，包括：获取所述初始语音识别结果中文本信息与所述语音数据中语音片段之间的第一映射关系；获取针对所述目标用户的预设语音与所述自定义词库中预设文本信息之间的第二映射关系；基于所述第二映射关系，对所述第一映射关系所对应的文本信息进行调整，以使所述语音片段与调整后的文本信息的对应关系、与所述第二映射关系中所述预设语音与所述预设文本信息之间的对应关系相匹配。 3.根据权利要求2所述的方法，其中，所述基于所述第二映射关系，对所述第一映射关系所对应的文本信息进行调整，包括：确定所述第一映射关系中存在与所述第二映射关系不匹配的目标对应关系，其中，所述目标对应关系所指示的第一语音片段与所述第二映射关系所指示的第一预设语音相匹配，所述目标对应关系所指示的所述第一语音片段对应的第一文本信息与所述第二映射关系所指示的所述第一预设语音对应的第一预设文本信息不匹配；基于所述第二映射关系中所述第一预设文本信息，对所述第一映射关系所对应的第一文本信息进行调整。 4.根据权利要求2所述的方法，其中，还包括：检测到所述第二映射关系所指示的预设语音中存在预设发音特征后，对存在所述预设发音特征的预设语音进行模糊化处理，以便于提升语音片段与模糊化处理后的所述预设语音之间的匹配成功率。 5.根据权利要求2或5所述的方法，其中，还包括：检测到所述语音数据的语音片段中存在预设发音特征后，对存在所述预设发音特征的语音片段进行模糊化处理，以便于提升所述预设语音与模糊化处理后的所述语音片段之间的匹配成功率。 6.根据权利要求1所述的方法，其中，所述获取针对所述目标用户的识别结果调整策略，包括：获取所述语音数据所对应的环境特征；基于所述环境特征确定针对所述目标用户的识别结果调整策略。 7.根据权利要求1所述的方法，还包括：启动车载采集设备，以利用所述车载采集设备在车载环境中对所述目标用户的语音数据进行采集。 8.一种语音识别装置，包括：语音获取单元，用于获取目标用户的语音数据；语音识别单元，用于对所述语音数据进行识别，得到初始语音识别结果；策略处理单元，用于获取针对所述目标用户的识别结果调整策略，并确定所述识别结果调整策略包含自定义调整模式后，获取针对所述目标用户的自定义词库；结果调整单元，用于基于所述目标用户的自定义词库对所述初始语音识别结果进行调整，得到针对所述目标用户的目标语音识别结果。 9.根据权利要求8所述的装置，其中，所述结果调整单元，包括：第一映射关系获取子单元，用于获取所述初始语音识别结果中文本信息与所述语音数据中语音片段之间的第一映射关系；第二映射关系获取子单元，用于获取针对所述目标用户的预设语音与所述自定义词库中预设文本信息之间的第二映射关系；调整子单元，用于基于所述第二映射关系，对所述第一映射关系所对应的文本信息进行调整，以使所述语音片段与调整后的文本信息的对应关系、与所述第二映射关系中所述预设语音与所述预设文本信息之间的对应关系相匹配。 10.根据权利要求9所述的装置，其中，所述调整子单元，还用于：确定所述第一映射关系中存在与所述第二映射关系不匹配的目标对应关系，基于所述第二映射关系中第一预设文本信息，对所述第一映射关系所对应的第一文本信息进行调整；其中，所述目标对应关系所指示的第一语音片段与所述第二映射关系所指示的第一预设语音相匹配，所述目标对应关系所指示的所述第一语音片段对应的第一文本信息与所述第二映射关系所指示的所述第一预设语音对应的第一预设文本信息不匹配。 11.根据权利要求9所述的装置，还包括：第一模糊处理单元，用于检测到所述第二映射关系所指示的预设语音中存在预设发音特征后，对存在所述预设发音特征的预设语音进行模糊化处理，以便于提升语音片段与模糊化处理后的所述预设语音之间的匹配成功率。 12.根据权利要求9或11所述的装置，还包括：第二模糊处理单元，用于检测到所述语音数据的语音片段中存在预设发音特征后，对存在所述预设发音特征的语音片段进行模糊化处理，以便于提升所述预设语音与模糊化处理后的所述语音片段之间的匹配成功率。 13.根据权利要求8所述的装置，其中，所述策略处理单元，包括：特征获取子单元，用于获取所述语音数据所对应的环境特征；策略处理子单元，用于基于所述环境特征确定所述目标用户的识别结果调整策略。 14.根据权利要求8所述的装置，还包括：控制单元，用于启动车载采集设备，以利用所述车载采集设备在车载环境中对所述目标用户的语音数据进行采集。 15.一种电子设备，其特征在于，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。 16.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的方法。

专利专题