10.3969/j.issn.1009-3044.2005.04.027
基于统计分词的中文文本分类系统
本文阐述了一个中文文本分类系统的设计和实现,对文本分类系统的系统结构、特征提取、训练算法、分类算法等进行了详细介绍,将基于统计的二元分词方法应用于中文文本分类,并提出了一种基于汉语中单字词及二字词统计特性的中文文本分类方法,实现了在事先没有词表的情况下,通过统计构造单字及二字词词表,从而对文本进行分词,然后再进行文本的分类.
中文文本分类统计分词特征提取
TP391(计算技术、计算机技术)
2005-05-19(万方平台首次上网日期,不代表论文的发表时间)
共4页
71-74