10.3969/j.issn.1003-3254.2011.11.014
限定领域语言模型训练语料的词类扩展方法
限定领域的语言模型训练语料的搜集需要耗费大量的人力物力,如果语料搜集不充分,往往会造成数据稀疏的问题.解决该问题的方法有两种:1、采用数据平滑算法,降低模型的困惑度;2、对训练语料进行扩展.探索了对语言模型的训练语料进行半自动扩展的方法.该方法通过计算互信息将非限定领域的大规模语料分成若干词类,生成大词类表;再将该表中领域相关的词类提取出来,进行手动删减之后用于对限定领域的语言模型进行参数估计.实验表明,将该方法用于语音识别系统,能有效缩短语言模型训练语料的搜集时间,提高系统的识别率.
语料扩展、互信息、语言模型、语音识别、词类
20
TP3;TP1
2012-03-05(万方平台首次上网日期,不代表论文的发表时间)
共4页
55-58