一种电话机器人中带口音的语音识别方法及系统

引用

摘要：

本申请提供一种电话机器人中带口音的语音识别方法及系统，包括获取语音输入信号的高级声学特征和口音特征；将所述高级声学特征和所述口音特征进行拼接后送入深度神经网络的softmax层，输出所述语音输入信号的子因素序列；获取会话理解系统的会话场景判断结果，根据所述会话场景判定结果调用对应的WFST解码图对所述子因素序列进行解码，得到所述语音输入信号对应的转写文本。通过上述方式，将口音特征与会话场景相结合，可以大大提升电话机器人中，对带口音的语音识别的准确性。

专利类型：发明专利

申请/专利号：CN202010623463.9

申请日期：2020-07-02

公开/公告号：CN111508501A

公开/公告日：2020-08-07

主分类号：G10L15/26(2006.01)

申请/专利权人:成都晓多科技有限公司

发明/设计人:张翀;江岭

主申请人地址:610000 四川省成都市天府新区华阳街道华府大道一段1号2栋2单元19楼1903号

专利代理机构:成都睿道专利代理事务所(普通合伙)

代理人:薛波

国别省市代码:四川;51

权利要求：

1.一种电话机器人中带口音的语音识别方法，其特征在于，包括：获取语音输入信号的高级声学特征和口音特征；将所述高级声学特征和所述口音特征进行拼接后送入深度神经网络的softmax层，输出所述语音输入信号的子因素序列；获取会话理解系统的会话场景判断结果，根据所述会话场景判定结果调用对应的WFST解码图对所述子因素序列进行解码，得到所述语音输入信号对应的转写文本。 2.根据权利要求1所述的语音识别方法，其特征在于，所述语音识别方法还包括：获取语音输入信号的多帧MFCC特征；利用多层时延神经网络对所述MFCC特征进行非线性变换，提取所述语音输入信号的高级声学特征；通过一层时延神经网络对所述高级声学特征进行非线性变换，提取所述语音输入信号的口音特征。 3.根据权利要求2所述的语音识别方法，其特征在于，通过一层时延神经网络对所述高级声学特征进行非线性变换时，每个时间步的计算包含多帧数据，且进行当前时间步的特征计算时将包含上一时间步的尾部帧数据。 4.根据权利要求2所述的语音识别方法，其特征在于，所述语音识别方法还包括：通过反向传播法调整时延神经网络的参数。 5.根据权利要求1所述的语音识别方法，其特征在于，所述语音识别方法还包括：获取用于语言模型训练的会话文本语料；对所述会话文本语料进行分类，得到不同会话场景下的语料；利用N元模型进行语言模型建模，生成不同会话场景下的语言模型；将所述语言模型转换为不同会话场景下对应的WFST解码图。 6.根据权利要求5所述的语音识别方法，其特征在于，会话场景中的会话开始阶段和会话结束阶段共用一个语言模型。 7.一种电话机器人中带口音的语音识别系统，其特征在于，包括：获取模块，用于获取语音输入信号的高级声学特征和口音特征；子因素序列输出模块，用于将所述高级声学特征和所述口音特征进行拼接后送入深度神经网络的softmax层，输出所述语音输入信号的子因素序列；解码输出模块，用于获取会话理解系统的会话场景判断结果，根据所述会话场景判定结果调用对应的WFST解码图对所述子因素序列进行解码，得到所述语音输入信号对应的转写文本。 8.根据权利要求7所述的语音识别系统，其特征在于，所述语音识别系统还包括语言模型训练模块，所述语言模型训练模块用于：获取用于语言模型训练的会话文本语料；对所述会话文本语料进行分类，得到不同会话场景下的语料；利用N元模型进行语言模型建模，生成不同会话场景下的语言模型；将所述语言模型转换为不同会话场景下对应的WFST解码图。 9.根据权利要求7所述的语音识别系统，其特征在于，所述语音识别系统还包括高级声学特征提取模块和口音特征提取模块；所述高级声学特征提取模块用于获取语音输入信号的多帧MFCC特征；利用多层时延神经网络对所述MFCC特征进行非线性变换，提取所述语音输入信号的高级声学特征；所述口音特征提取模块用于通过一层时延神经网络对所述高级声学特征进行非线性变换，提取所述语音输入信号的口音特征。 10.根据权利要求9所述的语音识别系统，其特征在于，所述口音特征提取模块通过一层时延神经网络对所述高级声学特征进行非线性变换时，每个时间步的计算包含多帧数据，且进行当前时间步的特征计算时将包含上一时间步的尾部帧数据。

专利专题