DOI：10.3969/j.issn.1003-0077.2002.05.001

基于N-最短路径方法的中文词语粗分模型

引用

摘要：

预处理过程的词语粗切分,是整个中文词语分析的基础环节,对最终的召回率、准确率、运行效率起着重要的作用.词语粗分必须能为后续的过程提供少量的、高召回率的、中间结果.本文提出了一种基于N-最短路径方法的粗分模型,旨在兼顾高召回率和高效率.在此基础上,引入了词频的统计数据,对原有模型进行改进,建立了更实用的统计模型.针对人民日报一个月的语料库(共计185,192个句子),作者进行了粗分实验.按句子进行统计,2-最短路径非统计粗分模型的召回率为99.73%;在10-最短路径统计粗分模型中,平均6.12个粗分结果得到的召回率高达99.94%,比最大匹配方法高出15%,比以前最好的切词方法至少高出6.4%.而粗分结果数的平均值较全切分减少了64倍.实验结果表明:N-最短路径方法是一种预处理过程中实用、有效的的词语粗分手段.

关键词：N-最短路径方法、粗分、中文词语分析

所属期刊栏目：16

分类号：TP391.2(计算技术、计算机技术)

资助基金：国家重点基础研究发展计划973计划G1998030507-4,G1998030510

在线出版日期：2004-03-12（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：1-7

英文信息展示

期刊专题