一种用于语种识别的语种模型的训练方法及系统
本发明涉及一种用于语种识别的语种模型的训练方法及系统,所述方法包括:采集多个目标语种语音数据,提取各语种的语音声学谱特征;利用所述声学谱特征训练每个目标语种的高斯混合模型,作为其初始模型;利用每个目标语种的初始模型量化对应语种训练数据的混淆度;利用最大后验估计将各语种训练数据从声学谱特征转换到高斯超向量空间;对所述各语种训练数据的高斯超向量空间,根据所述混淆度赋予各语种训练数据的高斯超向量不同的权重,并利用权重较高的几个语种的训练数据来训练语种模型。本发明实施例量化对应语种训练数据的混淆度,利用权重较高的训练数据来训练语种模型,能够有效地提高语种鉴别性,改善语种识别性能。
发明专利
CN201210560716.8
2012-12-20
CN103065622A
2013-04-24
G10L15/06(2013.01)I
中国科学院声学研究所%北京中科信利技术有限公司
周若华;颜永红;杨金超;索宏彬
100190 北京市海淀区北四环西路21号
北京亿腾知识产权代理事务所 11309
陈霁
北京;11
一种用于语种识别的语种模型的训练方法,其特征在于,所述方法包括:采集多个目标语种语音数据,提取各语种的语音声学谱特征;利用所述声学谱特征训练每个目标语种的高斯混合模型,作为其初始模型;利用每个目标语种的初始模型量化对应语种训练数据的混淆度;利用最大后验估计将各语种训练数据从声学谱特征转换到高斯超向量空间;对所述各语种训练数据的高斯超向量空间,根据所述混淆度赋予各语种训练数据的高斯超向量不同的权重,并利用权重较高的几个语种的训练数据来训练语种模型。