用于语音识别的声学模型的建模方法、建模系统

引用

摘要：

本发明涉及一种用于语音识别的声学模型的建模方法及语音识别系统。所述方法包括：训练一个初始模型，建模单元为经音素决策树聚类后的三音子状态，所述模型还给出状态转移概率；基于初始模型对训练数据语音特征的三音子状态进行强制对齐，获得其帧级别的状态信息；对深层神经网络进行预训练以得到各隐含层初始权重；基于所获得的帧级状态信息采用误差反向传播算法对已初始化的网络进行训练，更新权重。本发明采用上下文相关三音子状态做为建模单元，基于深层神经网络建模，使用受限波尔兹曼算法初始化所述网络各隐含层的权重，所述权重在后续还可以借助反向误差传播算法被更新，能够有效地缓解所述网络预训练时容易陷入局部极值的风险，并进一步提高声学模型的建模精度。

专利类型：发明专利

申请/专利号：CN201310020010.7

申请日期：2013-01-18

公开/公告号：CN103117060A

公开/公告日：2013-05-22

主分类号：G10L15/14(2006.01)I

申请/专利权人:中国科学院声学研究所%北京中科信利技术有限公司

发明/设计人:颜永红;肖业鸣;潘接林

主申请人地址:100190 北京市海淀区北四环西路21号

专利代理机构:北京亿腾知识产权代理事务所 11309

代理人:陈霁

国别省市代码:北京;11

权利要求：

一种用于语音识别的声学模型的建模方法，其特征在于，所述方法包括：用训练数据训练一个隐马尔可夫‑混合高斯HMM‑GMM模型，该HMM‑GMM模型的建模单元为所述训练数据的语音特征经过音素决策树聚类后的三音子状态，所述HMM‑GMM模型通过期望最大EM算法训练获得，同时获得所述三音子状态的状态转移概率；基于所述HMM‑GMM模型，对所述训练数据语音特征进行强制对齐，获得所述语音特征帧级别的三音子状态信息；对作为所述声学模型的深层神经网络进行预训练以得到用于初始化所述深层网络的各隐含层的权重的参数；基于所述训练数据语音特征的语音特征帧级状态信息采用误差反向传播算法对所述深层神经网络进行训练，更新其各隐含层的权重。

专利专题