10.3969/j.issn.1000-7024.2012.01.071
基于用字共现频率统计的外国译名自动识别
为了减少分词的负面效果,提出了基于用字共现频率统计的外国译名自动识别方法.对译名的用字特征进行了统计,提出译名共现字串的概念,并由译名用字表与汉语常用字表得到了非译名用字表.在上述工作的基础上定义了译名的边界,在边界定义的基础上设计了一种对分词错误的调整方法.对开放语料的测试结果表明,与最大词频分词算法相比,该算法在译名识别中的准确率、召回率、F值均有所提高.
外国译名、分词、共现字串、频率统计、译名边界、自然语言处理
33
TP391(计算技术、计算机技术)
国家自然科学基金项目60702056
2012-04-27(万方平台首次上网日期,不代表论文的发表时间)
共5页
362-366