10.3969/j.issn.1001-0645.2006.12.009
一种快速文本归类算法的设计与实现
为实现无维数约减技术而使分类算法可行且不浪费空间存储的超稀疏文档向量,同时保证分类精度和速度且两者相互独立的目标,提出使用类别特征信息数据库、类别特征权重向量模型、待归类文档压缩向量表示法和改进的Rocchio分类算法等技术实现文档的高速归类. 在相同的Reuters测试语料集上,与CRF算法和改进的kNN算法进行对比实验. 结果表明,在基本不牺牲精度的情况下,归类算法的分类速度明显高于对比算法.
类别特征库、类别特征权重向量模型、压缩文档向量表示
26
TP391(计算技术、计算机技术)
国家部委预研项目40104116
2007-01-17(万方平台首次上网日期,不代表论文的发表时间)
共4页
1069-1072