基于前后文n-gram模型的古汉语句子切分

引用

摘要：

提出了基于前后文n-gram模型的古汉语句子切分算法,该算法能够在数据稀疏的情况下,通过收集上下文信息,对切分位置进行比较准确的预测,从而较好地处理小规模训练语料的情况,降低数据稀疏对切分准确率的影响.采用<论语>对所提出的算法进行了句子切分实验,达到了81%的召回率和52%的准确率.

关键词：n-gram模型、数据稀疏、平滑技术、基于前后文的n-gram模型

所属期刊栏目：33

分类号：TP39(计算技术、计算机技术)

资助基金：国家自然科学基金60073046;高等学校博士学科点专项科研基金"SRFDP"资助项目20020610007

在线出版日期：2007-03-21（万方平台首次上网日期，不代表论文的发表时间）

页数：共3页

页码：192-193,196

英文信息展示

期刊专题