DOI：10.3969/j.issn.1000-0135.1999.01.004

一个中文文本自动分类数学模型

引用

摘要：

本文提出了一种根据汉字统计特性和基于实例映射的中文文本自动分类模型.该模型采用汉字字频向量作为文本的表示方法.它的显著特点是引入线性最小二乘方拟合(Linear LeastSquare Fit,LLSF)技术建立文本分类器模型,通过对训练集语料的手工分类标引以及对文本和类别间的相关性判定的学习,实现了基于全局最小错误率的汉字--类别两个向量空间的映射函数,并用该函数对测试文本进行分类.

关键词：中文文本自动分类、字频向量、基于实例的映射函数

所属期刊栏目：18

分类号：G25(图书馆学、图书馆事业)

在线出版日期：2004-01-08（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：27-32

英文信息展示

期刊专题