基于N-最短路径方法的中文词语粗分模型
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.3969/j.issn.1003-0077.2002.05.001

基于N-最短路径方法的中文词语粗分模型

引用
预处理过程的词语粗切分,是整个中文词语分析的基础环节,对最终的召回率、准确率、运行效率起着重要的作用.词语粗分必须能为后续的过程提供少量的、高召回率的、中间结果.本文提出了一种基于N-最短路径方法的粗分模型,旨在兼顾高召回率和高效率.在此基础上,引入了词频的统计数据,对原有模型进行改进,建立了更实用的统计模型.针对人民日报一个月的语料库(共计185,192个句子),作者进行了粗分实验.按句子进行统计,2-最短路径非统计粗分模型的召回率为99.73%;在10-最短路径统计粗分模型中,平均6.12个粗分结果得到的召回率高达99.94%,比最大匹配方法高出15%,比以前最好的切词方法至少高出6.4%.而粗分结果数的平均值较全切分减少了64倍.实验结果表明:N-最短路径方法是一种预处理过程中实用、有效的的词语粗分手段.

N-最短路径方法、粗分、中文词语分析

16

TP391.2(计算技术、计算机技术)

国家重点基础研究发展计划973计划G1998030507-4,G1998030510

2004-03-12(万方平台首次上网日期,不代表论文的发表时间)

共7页

1-7

相关文献
评论
暂无封面信息
查看本期封面目录

中文信息学报

1003-0077

11-2325/N

16

2002,16(5)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn