10.3969/j.issn.1002-137X.2006.01.066
基于句子级的最大频繁序列的文本分类
本文提出了一种新的文本分类方法.这种方法将一篇文本的一个句子看作一个事务,一个段落看作是一个序列,则一篇文本表示成一个序列的集合.我们从每篇训练文本中挖出最大频繁序列用以表示这篇文本,这种表示方法可大大提高训练及分类速度,同时也可以几乎不损失分类精度.在数据集Reuters-21578[1]上的大量实验证明这种方法要远远好于其他的文本级的基于关联的分类方法.
文本分类、句子级、最大序列、频繁序列
33
TP3(计算技术、计算机技术)
同济大学校科研和教改项目;中国博士后科学基金
2006-03-30(万方平台首次上网日期,不代表论文的发表时间)
共4页
236-239