10.3969/j.issn.1000-3428.2015.04.031
基于锚点句对的汉维句子对齐方法
为提高汉维句子对齐方法的准确率,提出一种分段句子对齐方法。采用词汇信息和长度信息相结合的策略,识别出能作为锚点的一对句子(锚点句对),并将其作为分割标志对全文进行分段,在各片段内使用基于长度的方法实现全部句子的对齐,采用词汇、数字、标点符号和长度信息提高方法的领域移植性,使用分段方法避免复杂的计算过程,从而解决错误蔓延问题。实验结果表明,该方法的准确率达到95.2%,比基于长度的句子对齐方法提高了2.7%。
平行语料库、句子对齐、锚点、基于长度的方法、基于词汇的方法
TP391(计算技术、计算机技术)
新疆维吾尔自治区自然科学基金资助项目2012211B08。
2015-04-29(万方平台首次上网日期,不代表论文的发表时间)
共5页
166-170