10.3969/j.issn.1000-3428.2012.17.013
藏文自动分词中未登录词处理方法研究
藏文中后接成份出现频率较高,分词中未登录词的后缀单切现象会影响分词的正确率,为此,采用词(语素)+缀归并的方法,将藏文后接成份与前一词(语素)归并为一个切分单位输出.针对藏文中大量人名、地名、单位名等未登录词在分词时出现的碎片切分现象,使用分词碎片整合方法,将多次出现的词条碎片整合为一个切分单位输出.实验结果表明,2种方法能提高藏文自动分词的识别正确率.
藏文信息处理、词缀归并、未登录词、分词碎片整合
38
TP391.1(计算技术、计算机技术)
国家自然科学基金资助项目“基于虚词的藏文基本句型的格式化研究”6106315
2012-11-19(万方平台首次上网日期,不代表论文的发表时间)
共3页
46-48