基于多种长度单位的汉英句子分组对齐算法
传统的基于长度的汉英双语句子对齐算法大都以字节作为句子长度的计算单位.提出了以句子所含动词、名词、形容词、实词、字节及全部词语总数等6种单位作为句子长度的计算方法进行汉英句子对齐研究.针对传统基于长度对齐算法消耗内存大、效率低的特点,提出了不受文本大小限制的分组对齐算法.实验结果表明,汉英句子对齐以词语作为长度计算单位的算法性能较高,准确率达到99.01%,召回率达到99.50%.
自然语言处理、双语语料、句子对齐、分组对齐、句子长度
41
TP391(计算技术、计算机技术)
河南省教育厅自然科学基金资助项目,编号2007520050
2011-08-17(万方平台首次上网日期,不代表论文的发表时间)
共4页
33-36