10.3969/j.issn.1000-0135.2005.06.008
多层次web文本分类
传统的文本分类大多基于向量空间,分类体系为甲面体系,忽视了类别间的层次关系.根据LSA理论提出了一种多层次web文本分类方法.建立类模型时,根据类别的层次关系树由下到上逐层为具有相同父节点的类别建立一个类模型;分类时,由上到下,根据相应的类模型存LS空间上分类.这种分类方法解决了LSA模型中高维矩阵难以进行奇异值分解的问题.同时体现了web文本中词条的语义关系,注重了词条在网页中的表现形式.实验表明,多层次web文本分类方法比基于平面分类体系的分类方法在查全率和准确率方面要好.
文本分类、网页净化、LSA、LS空间
24
G35(情报学、情报工作)
浙江省自然科学基金 M063149
2006-04-06(万方平台首次上网日期,不代表论文的发表时间)
共6页
684-689