10.3969/j.issn.1003-0077.2006.04.010
基于trigram语体特征分类的语言模型自适应方法
本文从书面语和口语存在的差异出发,提出了语言模型的语体自适应方法.自适应采用了几种不同的计数意义上的插值算法.考虑Katz平滑的插值算法根据trigram单元的可信度来分配权值.基于trigram语体特征分类的自适应算法根据trigram单元的语体特征倾向动态分配权值,并选取了几种不同的权值生成函数.对口语语料做音转字的实验证明,使用这几种自适应算法可以让基准模型的性能有不同程度的提高,其中综合考虑单元可信度和特征倾向的算法效果最好,相对于本文的两个基准的汉字错误率下降率分别达到了50.2%和23.7%.
计算机应用、中文信息处理、统计语言模型、trigram、自适应、语体、插值算法
20
TP391(计算技术、计算机技术)
2006-08-16(万方平台首次上网日期,不代表论文的发表时间)
共7页
68-74