DOI：10.3969/j.issn.1002-137X.2009.10.054

汉语统计语言模型训练样本容量的定量化度量

引用

摘要：

统计语言模型的参数训练是语言建模的关键,选择多大的训练样本就能够达到建模的参数估计误差要求,是语言建模理论关心的问题之一.应用数理统计理论对汉语统计语言模型的训练语料样本容量进行了定量化描述,给出了汉语n-gram模型训练样本容量下界的估算方法及量化估算公式,可根据模型参数估计的误差要求计算出模型训练所需的样本容量.

关键词：汉语统计语言模型、训练语料样本、样本容量、相对误差

所属期刊栏目：36

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金60873013.北京市自然科学基金B类重点项目KZ200811232019;中国科学院自动化研究所模式识别国家重点实验室开放基金,北京市属市管高校人才强教计划项目资助

在线出版日期：2009-12-08（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：222-224,249

英文信息展示

期刊专题