一种目标声学模型获取方法及装置

引用

摘要：

本发明实施例提供了一种目标声学模型获取方法和装置，该方法包括：从预设发音词典中筛选与特定词语搭配时产生变调的预设词语，得到目标预设词语；再将目标预设词语与特定词语搭配时的读音，添加到所述预设发音词典中，生成目标发音词典；然后根据目标发音词典，训练预设的声学模型，得到目标声学模型。本发明实施例能够对发音词典中词语之间搭配时的变调进行处理，将词间变调后的词语读音补充到发音词典中，使得发音词典中词语的读音更加全面、更贴合用户的实际发音；之后再利用该优化后的发音词典训练声学模型，能够提高得到的目标声学模型的语音识别的准确度。

专利类型：发明专利

申请/专利号：CN202010366725.8

申请日期：2020-04-30

公开/公告号：CN111696530A

公开/公告日：2020-09-22

主分类号：G10L15/06(2013.01)

申请/专利权人:北京捷通华声科技股份有限公司

发明/设计人:郑晓明;李健;武卫东

主申请人地址:100193 北京市海淀区东北旺西路8号中关村软件园2号楼A座一层2101

专利代理机构:北京润泽恒知识产权代理有限公司

代理人:莎日娜

国别省市代码:北京;11

权利要求：

1.一种目标声学模型获取方法，其特征在于，包括：从预设发音词典中筛选与特定词语搭配时产生变调的预设词语，得到目标预设词语；所述发音词典中至少包括预设词语及预设词语的基础读音；将所述目标预设词语与特定词语搭配时的读音，添加到所述预设发音词典中，生成目标发音词典；根据所述目标发音词典，训练预设的声学模型，得到目标声学模型。 2.根据权利要求1所示的方法，其特征在于，所述从发音词典中筛选与特定词语搭配时产生变调的词语，得到目标预设词语的步骤，包括：确定所述预设词语的末尾字符的原始音调；将末尾字符的原始音调为第一预设音调的预设词语，确定为第一词语；确定所述第一词语与其他词语搭配时的读音，得到所述第一词语的对比读音；若所述第一词语的末尾字符的原始音调与目标音调不匹配，则将所述第一词语确定为所述目标预设词语；所述目标音调为所述第一词语的末尾字符在所述对比读音中的音调。 3.根据权利要求2所示的方法，其特征在于，所述其他词语为首位字符的原始音调为第二预设音调的词语；所述第一预设音调及所述第二预设音调为上声。 4.根据权利要求2或3所述的方法，其特征在于，所述将所述目标预设词语与特定词语搭配时的读音，添加到所述预设发音词典中，包括：获取所述目标预设词语对应的第一词语的对比读音；将所述对比读音添加至所述预设发音词典；或者，获取所述目标预设词语的基础读音；对所述目标预设词语的末尾字符在所述基础读音中对应的音调进行修改，得到目标读音；将所述目标读音添加到所述预设发音词典中；所述目标读音与所述目标预设词语对应的第一词语的对比读音相同。 5.根据权利要求1所述的方法，其特征在于，在所述根据所述目标发音词典，训练预设的声学模型，得到目标声学模型的步骤之后，所述方法还包括：将所述目标发音词典、所述目标声学模型以及预设的语言模型按照预设方式进行融合，得到解码器；将待识别的语音信号的声学特征输入所述解码器；基于所述解码器，对所述声学特征进行语音识别，输出所述语音信号对应的文本。 6.一种目标声学模型获取装置，其特征在于，所述装置包括：筛选模块，用于从预设发音词典中筛选与特定词语搭配时产生变调的预设词语，得到目标预设词语；所述发音词典中至少包括预设词语及预设词语的基础读音；添加模块，用于将所述目标预设词语与特定词语搭配时的读音，添加到所述预设发音词典中，生成目标发音词典；训练模块，用于根据所述目标发音词典，训练预设的声学模型，得到目标声学模型。 7.根据权利要求6所示的装置，其特征在于，所述筛选模块，用于：确定所述预设词语的末尾字符的原始音调；将末尾字符的原始音调为第一预设音调的预设词语，确定为第一词语；确定所述第一词语与其他词语搭配时的读音，得到所述第一词语的对比读音；若所述第一词语的末尾字符的原始音调与目标音调不匹配，则将所述第一词语确定为所述目标预设词语；所述目标音调为所述第一词语的末尾字符在所述对比读音中的音调。 8.根据权利要求7所示的装置，其特征在于，所述其他词语为首位字符的原始音调为第二预设音调的词语；所述第一预设音调及所述第二预设音调为上声。 9.根据权利要求7或8所述的装置，其特征在于，所述添加模块，用于：获取所述目标预设词语对应的第一词语的对比读音；将所述对比读音添加至所述预设发音词典；或者，获取所述目标预设词语的基础读音；对所述目标预设词语的末尾字符在所述基础读音中对应的音调进行修改，得到目标读音；将所述目标读音添加到所述预设发音词典中；所述目标读音与所述目标预设词语对应的第一词语的对比读音相同。 10.根据权利要求6所述的装置，其特征在于，所述装置还包括：融合模块，用于将所述目标发音词典、所述目标声学模型以及预设的语言模型按照预设方式进行融合，得到解码器；输入模块，用于将待识别的语音信号的声学特征输入所述解码器；输出模块，用于基于所述解码器，对所述声学特征进行语音识别，输出所述语音信号对应的文本。

专利专题