DOI：10.16451/j.cnki.issn1003-6059.201606008

基于困惑度数据挑选的半监督声学建模

引用

摘要：

针对资源稀少情况下小语种的声学建模问题,提出根据解码后文本的困惑度挑选无监督数据并重新训练声学模型的策略.使用少量精标数据训练得到一个初始种子模型后,解码大量无监督数据,计算解码后的文本与精标数据文本的困惑度,从中挑选与精标数据相近的数据,再将这些数据与原有精标数据共同用于声学模型训练.为了提高解码的无监督数据的正确性,在基于深层神经网络的模型参数训练中,当最后一次模型参数更新时只使用精标数据修正网络参数.在NIST 2015年关键词识别比赛中Swahili语的VLLP识别任务上,相比其它方法,文中方法的识别率有一定提升.

关键词：半监督训练、困惑度、深层神经网络(DNN)

所属期刊栏目：29

分类号：TN912.3

资助基金：安徽省自然科学基金项目1408085MKL78;Natural Science Foundation of Anhui Province1408085MKL78

在线出版日期：2016-08-31（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：542-547

英文信息展示

期刊专题