基于二元语法的N-最大概率中文粗分模型

引用

摘要：

中文粗分是中文分词的基础环节,目前常用的粗分模型有基于规则的非统计模型和基于一元语法(uni-gram)的统计模型,其中后者取得了较好效果.在一元语法模型基础上提出了一种基于二元语法(bi-gram)的N-最大概率中文粗分模型,该模型把所有可能的词切分构造成一个有向无环图(DAG),利用噪声-信道模型和二元语法来计算概率,通过插值平滑技术来解决数据稀疏问题,目的在于更好地得到少量高召回率、高效率的粗分结果,更大程度地保留歧义字段和未登录词,提高后续分词质量.通过理论分析、模型建立和初步实验验证了模型的有效性.

关键词：二元语法、N-最大概率、中文粗分模型

所属期刊栏目：27

分类号：TP391(计算技术、计算机技术)

资助基金：教育部科学技术研究项目105087

在线出版日期：2008-03-03（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：2902-2905

英文信息展示

期刊专题