基于二元语法的N-最大概率中文粗分模型
中文粗分是中文分词的基础环节,目前常用的粗分模型有基于规则的非统计模型和基于一元语法(uni-gram)的统计模型,其中后者取得了较好效果.在一元语法模型基础上提出了一种基于二元语法(bi-gram)的N-最大概率中文粗分模型,该模型把所有可能的词切分构造成一个有向无环图(DAG),利用噪声-信道模型和二元语法来计算概率,通过插值平滑技术来解决数据稀疏问题,目的在于更好地得到少量高召回率、高效率的粗分结果,更大程度地保留歧义字段和未登录词,提高后续分词质量.通过理论分析、模型建立和初步实验验证了模型的有效性.
二元语法、N-最大概率、中文粗分模型
27
TP391(计算技术、计算机技术)
教育部科学技术研究项目105087
2008-03-03(万方平台首次上网日期,不代表论文的发表时间)
共4页
2902-2905