DOI：10.3969/j.issn.1003-0077.2006.04.010

基于trigram语体特征分类的语言模型自适应方法

引用

摘要：

本文从书面语和口语存在的差异出发,提出了语言模型的语体自适应方法.自适应采用了几种不同的计数意义上的插值算法.考虑Katz平滑的插值算法根据trigram单元的可信度来分配权值.基于trigram语体特征分类的自适应算法根据trigram单元的语体特征倾向动态分配权值,并选取了几种不同的权值生成函数.对口语语料做音转字的实验证明,使用这几种自适应算法可以让基准模型的性能有不同程度的提高,其中综合考虑单元可信度和特征倾向的算法效果最好,相对于本文的两个基准的汉字错误率下降率分别达到了50.2%和23.7%.

关键词：计算机应用、中文信息处理、统计语言模型、trigram、自适应、语体、插值算法

所属期刊栏目：20

分类号：TP391(计算技术、计算机技术)

在线出版日期：2006-08-16（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：68-74

英文信息展示

期刊专题