10.3321/j.issn:1000-565X.2004.z1.025
中文分词在邮件过滤系统中的应用
针对邮件文本分词效果较差的特点,提出采用一种改进的最大匹配法来进行中文分词的方法.该方法对于普通的邮件文本和一些具有特定格式的邮件文本都可以进行有效的分词;文中还利用φ2统计法生成新词,对词典起到了动态更新的作用,提高了分词的精度和准确度.两种方法在邮件过滤系统中结合应用,使分词的误分率低于0.025.
分词、φ2统计法、最大匹配法、垃圾邮件
32
TP391.1(计算技术、计算机技术)
广东省科技攻关项目2004A10302003
2004-12-16(万方平台首次上网日期,不代表论文的发表时间)
共5页
112-116