10.3778/j.issn.1002-8331.1302-0075
基于词位的藏文黏写形式的切分
基于词位的统计分析方法识别并切分现代藏语文本中的黏写形式,其最大特点是减少了未登录词对识别效果的影响。首先根据藏文自身的特点,将常用的四词位扩充为六词位,再利用条件随机场模型作为标注建模工具来进行训练和测试,并根据规则对识别结果进行后处理。从实验结果来看,该方法有较高的识别正确率,具有进一步研究的价值。下一步的改进需要扩充训练语料,并对模型选用的特征集进行优化。
藏文黏写形式、词位、条件随机场、特征模板、后处理
TP393(计算技术、计算机技术)
国家自然科学基金No.61132009。
2014-06-19(万方平台首次上网日期,不代表论文的发表时间)
共5页
218-222