DOI：10.3969/j.issn.1003-0077.2002.06.004

基于统计分词的中文网页分类

引用

摘要：

本文将基于统计的二元分词方法应用于中文网页分类,实现了在事先没有词表的情况下通过统计构造二字词词表,从而根据网页中的文本进行分词,进而进行网页的分类.因特网上不同类型和来源的文本内容用词风格和类型存在相当的差别,新词不断出现,而且易于获得大量的同类型文本作为训练语料.这些都为实现统计分词提供了条件.本文通过试验测试了统计分词构造二字词表用于中文网页分类的效果.试验表明,在统计阈值选择合适的时候,通过构建的词表进行分词进而进行网页分类,能有效地提高网页分类的分类精度.此外,本文还分析了单字和分词对于文本分类的不同影响及其原因.

关键词：文本分类、统计分词、机器学习、计算机网络

所属期刊栏目：16

分类号：TP391.1(计算技术、计算机技术)

资助基金：国家重点基础研究发展计划973计划G1998030509;国家高技术研究发展计划863计划2001AA114082

在线出版日期：2004-03-12（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：25-31

英文信息展示

期刊专题