10.3969/j.issn.1003-0077.2009.01.006
藏文自动分词系统中紧缩词的识别
在藏文信息处理中,涉及句法、语义都需要以词为基本单位,句法分析、语句理解、自动文摘、自动分类和机器翻译等,都是在切词之后基于词的层面来完成各项处理.因此,藏文分词是藏文信息处理的基础.该文通过研究藏文自动分词中的紧缩词,首次提出了它的一种识别方案,即还原法,并给出了还原算法.其基本思想是: 利用藏文紧缩词的添接规则还原藏文原文,以达到进行分词的目的.该还原算法已应用到笔者承担的国家语委项目中.经测试,在85万字节的藏文语料中紧缩词的识别准确率达99.83%.
计算机应用、中文信息处理、紧缩词、藏文分词、还原法、格助词
23
TP391(计算技术、计算机技术)
国家语委资助项目MZ05-118
2009-03-13(万方平台首次上网日期,不代表论文的发表时间)
共4页
35-37,43