10.3969/j.issn.1002-2279.2008.01.035
基于新统计量mt的汉语自动分词方法研究
汉语自动分词是进行中文信息处理的基础.传统分词需要大规模加工过的熟语料库做为测试集来训练模型以获取参数,代价高昂.在互信息和t-测试差的基础上,通过将两者进行线性和非线性组合,提出了一个新的统计量mt.该统计量所需的所有统计数据直接从待切分的生语料中获得,无须大规模加工过的熟语料和人工干预,大大降低了分词成本.测试结果显示,该统计量关于字间位置的分词正确率为80.14%,比单独使用互信息和t-测试差分别提高了6.83%和7.27%.
分词、互信息、t-测试差
29
TP391(计算技术、计算机技术)
2008-06-23(万方平台首次上网日期,不代表论文的发表时间)
共4页
107-110