DOI：10.3321/j.issn:1002-8331.2004.15.015

基于标记的规则统计模型与未登录词识别算法

引用

摘要：

该文针对小型词库,提出了基于规则统计模型的消歧方法和识别未登录词的词加权算法.通过大量语料库学习获取歧义高频字,作为歧义标记,利用规则统计模型对标记的上下文信息分类处理,剩下的部分进行正向或逆向动态最大匹配,对连续单字串使用词加权算法来判断其是否为未登录多字词.经过实验测试,该系统的准确率为98.88%,召回率为98.32%.

关键词：歧义标记、规则统计模型、n元语法、词加权算法

所属期刊栏目：40

分类号：TP391.2(计算技术、计算机技术)

资助基金：国家重点基础研究发展计划973计划2002CB312103;国家自然科学基金60373056;国家自然科学基金60033020

在线出版日期：2004-07-09（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：43-45,91

英文信息展示

期刊专题