改进的正向最大匹配分词算法
为了降低正向最大匹配分词算法的切分错误率,分析了产生这个错误率的原因,提出了一种改进的正向最大匹配分词算法,即增加一个交集型歧义字段处理模块.该方法对待切丈本进行预处理,在传统正向最大匹配的过程中,调用交集型歧义字段处理模块,该模块主要是在每一次正向匹配后进行回溯匹配,即通过检测当前处理词条的尾字和下一字的成词情况,分别计算该尾字和不含该字的当前处理词条的互信息与尾字和下一字的互信息,通过比较两者的互信息大小来决定切分,最后对分词碎片进行了处理.通过对随机抽取的语料进行测试,结果表明该方法是有效的.
正向最大匹配算法、交集型歧义、预处理、互信息、分词碎片
31
TP391(计算技术、计算机技术)
2010-08-27(万方平台首次上网日期,不代表论文的发表时间)
共4页
2595-2597,2633