DOI：10.16451/j.cnki.issn1003-6059.201807009

基于解码多候选结果的半监督数据挑选的语音识别

引用

摘要：

基于资源稀少情况下的语音识别,提出针对大量无标注数据的半监督学习的挑选策略,应用到声学模型和语言模型建模.采用少量数据训练种子模型后,解码无标注数据.首先在解码的最佳候选结果中采用置信度与困惑度结合的方法挑选高可信的语句训练声学模型及语言模型.进一步对解码得到的格进行转化,得到多候选文本,用于语言模型训练.在日语识别任务上,相比基于置信度挑选数据的方法,文中方法在识别率上具有较大提升.

关键词：置信度、半监督学习、多候选、低资源

所属期刊栏目：31

分类号：TN912.3

在线出版日期：2018-09-05（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：662-667

英文信息展示

期刊专题