DOI：10.3969/j.issn.1003-0077.2009.01.006

藏文自动分词系统中紧缩词的识别

引用

摘要：

在藏文信息处理中,涉及句法、语义都需要以词为基本单位,句法分析、语句理解、自动文摘、自动分类和机器翻译等,都是在切词之后基于词的层面来完成各项处理.因此,藏文分词是藏文信息处理的基础.该文通过研究藏文自动分词中的紧缩词,首次提出了它的一种识别方案,即还原法,并给出了还原算法.其基本思想是: 利用藏文紧缩词的添接规则还原藏文原文,以达到进行分词的目的.该还原算法已应用到笔者承担的国家语委项目中.经测试,在85万字节的藏文语料中紧缩词的识别准确率达99.83%.

关键词：计算机应用、中文信息处理、紧缩词、藏文分词、还原法、格助词

所属期刊栏目：23

分类号：TP391(计算技术、计算机技术)

资助基金：国家语委资助项目MZ05-118

在线出版日期：2009-03-13（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：35-37,43

英文信息展示

期刊专题