一种基于N元语法分布的语言模型自适应方法

引用

摘要：

N元语法分布能恰当地描述语料库的特性,为了有效利用普通领域训练数据,提出一种基于N元语法分布的语言模型自适应方法.该方法定义一个小的领域内的高质量种子集和一个大的普通领域的质量不稳定的训练集,将训练集的N元语法分布自适应到和种子集的N元语法分布相似,以更好地进行特定领域单词识别.实验结果表明,基于N元语法分布的语言模型自适应方法可以使单词困惑度和词错误率分别比传统的简单插值法降低11.1%和6.9%.

关键词：N元语法分布、种子集、训练集、自适应

所属期刊栏目：34

分类号：TP391(计算技术、计算机技术)

资助基金：高等学校博士学科点专项科研基金20050007023

在线出版日期：2009-02-06（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：1276-1279

英文信息展示

期刊专题