10.3321/j.issn:1002-8331.2004.15.015
基于标记的规则统计模型与未登录词识别算法
该文针对小型词库,提出了基于规则统计模型的消歧方法和识别未登录词的词加权算法.通过大量语料库学习获取歧义高频字,作为歧义标记,利用规则统计模型对标记的上下文信息分类处理,剩下的部分进行正向或逆向动态最大匹配,对连续单字串使用词加权算法来判断其是否为未登录多字词.经过实验测试,该系统的准确率为98.88%,召回率为98.32%.
歧义标记、规则统计模型、n元语法、词加权算法
40
TP391.2(计算技术、计算机技术)
国家重点基础研究发展计划973计划2002CB312103;国家自然科学基金60373056;国家自然科学基金60033020
2004-07-09(万方平台首次上网日期,不代表论文的发表时间)
共4页
43-45,91