维吾尔语词法分析的有向图模型
维吾尔语是典型的黏着性语言,其派生能力很强,具有丰富的形态变化,同时遵循语音和谐规律,生成过程中会出现弱化、增音、脱落等音变现象.这些特性决定了维吾尔语词法分析的难点,包括词干提取、发生音变字母的还原以及标注.将维吾尔语词的层次结构引入到词法分析研究中,提出了维吾尔语词法分析的有向图模型,该模型将维吾尔语词法分析描述为有向图结构,图中节点表示词干、词缀及其相应标注,其边表示节点之间的转移或生成概率并将此概率作为候选择优的依据.针对维吾尔语在形态变化过程中发生的音变现象,又提出基于词内字母对齐算法的自动还原模型,该模型将音变现象泛化到每个字母上的假设之下,将还原问题转变成类似于词性标注问题,再利用统计方法进行还原在对新疆多语种信息技术重点实验室手工标注的《维吾尔语百万词词法分析语料库》上进行的实验中,取得了词干提取正确率为94.7%,词干与各词缀切分并标注的F值达到92.6%的好成绩.
维吾尔语、词法分析、词语切分、词性标注、有向图
23
TP391(计算技术、计算机技术)
国家自然科学基金61063026;国家社会科学基金10AYY006;国家工信部电子发展基金工信部财2009553;新疆高校青年教师科研培养基金XJEDU2010S07;新疆大学优秀博士创新项目基金
2013-04-11(万方平台首次上网日期,不代表论文的发表时间)
共15页
3115-3129