DOI：10.3969/j.issn.1000-7024.2012.01.071

基于用字共现频率统计的外国译名自动识别

引用

摘要：

为了减少分词的负面效果,提出了基于用字共现频率统计的外国译名自动识别方法.对译名的用字特征进行了统计,提出译名共现字串的概念,并由译名用字表与汉语常用字表得到了非译名用字表.在上述工作的基础上定义了译名的边界,在边界定义的基础上设计了一种对分词错误的调整方法.对开放语料的测试结果表明,与最大词频分词算法相比,该算法在译名识别中的准确率、召回率、F值均有所提高.

关键词：外国译名、分词、共现字串、频率统计、译名边界、自然语言处理

所属期刊栏目：33

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金项目60702056

在线出版日期：2012-04-27（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：362-366

英文信息展示

期刊专题