10.3969/j.issn.1002-137X.2010.04.054
多策略汉维句子对齐
提出了一种错误抑制的多策略算法对齐汉维语句子.针对长度对齐算法无法避免错误蔓延的特点,提出了一种新的错误蔓延抑制策略:利用双语语料的词汇共现信息,自动抽取汉维语词汇搭配,结合句子长度特征,寻找1:1模式的句对作为锚点,将错误蔓延抑制在锚点内;在锚点之问,利用标点符号和长度混合方法进行句子对齐.算法实验结果验证了该多策略算法寻找的锚点的精度高,有效抑制了对齐错误的蔓延;采用的混合对齐算法,避免了基于词汇对齐算法的高时间复杂度的弱点,比传统的对齐算法性能有了较大提高,对齐准确率由95.0%提高到97.6%,召回率由96.8%提高到98.2%,采用的对齐正确性评价算法可以有效发现自动对齐中的噪音对齐.
双语语料、错误抑制、句子时齐、混合策略、汉维句子
37
TP391(计算技术、计算机技术)
国家自然科学基金项目60663006,60963017;新疆维吾尔自治区高等学校科学研究计划XJEDU2009I05
2010-06-07(万方平台首次上网日期,不代表论文的发表时间)
共5页
215-218,292