10.3772/j.issn.1000-0135.2013.01.010
双语潜在语义对应分析及在跨语言文本分类中的应用研究
双语文本对应分析在处理多语言文本数据、克服语言障碍等方面有着重要的作用,基于语料库技术的跨语言潜在语义索引方法没有充分考虑双语的语义相关性.本文将双语平行文档看作同一语义内容的两种语言表达,运用偏最小二乘方法构建双语文本的语义相关性,为每种语言建立单独的潜在语义空间,并在这两个空间上实现跨语言的分类任务.在香港政府网中英双语新闻的实验结果显示,本文方法构造的双语潜在语义空间上完成的跨语言和单语言文本分类性能接近或优于原始特征空间的单语言分类,并具有良好的稳健性.
双语文本对应分析、双语潜在语义空间、偏最小二乘、跨语言文本分类
32
TP3;H31
国家自然科学基金项目60963014;江西省教育厅科技项目GJJ10116
2013-03-27(万方平台首次上网日期,不代表论文的发表时间)
共11页
86-96