10.3969/j.issn.1000-3428.2007.22.016
基于句类向量空间模型的自动文本分类研究
向量空间模型是自动文本分类中成熟的文本表示模型,通常以词语或短语作为特征项,但这些特征项通常只能提供较少的局部语义信息.为实现基于内容的文本分类,该文用HNC理论中的句类作为特征项,通过混合句类分解等技术对句类向量空间降维,使用tfc算法对特征项进行权重计算,用KNN算法进行分类.该分类器的平均准确率和召回率都是可接受的,对类别的抽象程度无要求,即抽象度较高和较低的类别可以同时分类.通过使用更好的机器学习算法和其他的HNC语言理解技术,性能可以进一步提高.
文本分类、句类、向量空间模型、HNC理论
33
TP391(计算技术、计算机技术)
国家重点基础研究发展计划973计划2004CB318104;中国科学院知识创新工程项目
2008-01-14(万方平台首次上网日期,不代表论文的发表时间)
共3页
45-47