DOI：10.3772/j.issn.1000-0135.2009.04.007

自适应分词算法中的未登录词识别技术研究

引用

摘要：

深入研究了未登录词识别技术,并提出了一种新的未登录词识别算法,包括其中的数量词识别规则、边界单字规则、虚字辅助规则、未登录词记忆识别规则以及左右方探测法选取未登录词规则等,使得算法在不依赖大型语料库的前提下可以有效地识别多种领域中各种类型的未登录词.同时,算法通过对绝大部分的交集歧义的识别有效地解决了识别未登录词时导致的新的切分歧义的问题.在网络时文的开放性测试中,分词算法的分词准确率约为90.1%,未登录词识别的准确率、召回率分别为91.2%和94.7%.

关键词：汉语分词、未登录词识别、交集型歧义、汉语分词系统

所属期刊栏目：28

分类号：TP3;TN9

在线出版日期：2009-08-20（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：530-536

英文信息展示

期刊专题