基于主题词频数特征的文本主题划分
目前文本分类所采用的文本-词频矩阵具有词频维数过大和过于稀疏两个特点,给计算造成了一定困难.为解决这一问题,从用户使用搜索引擎时选择所需文本的心理出发,提出了一种基于主题词频数特征的文本主题划分方法.该方法首先根据统计方法筛选各文本类的主题词,然后以主题词类替代单个词作为特征采用模糊C-均值(FCM)算法施行文本聚类.实验获得了较好的主题划分效果,并与一种基于词聚类的文本聚类方法进行了过程及结果中多个方面的比较,得出了一些在实施要点和应用背景上较有意义的结论.
搜索引擎、文本聚类、模糊C-均值、主题词筛选
26
TP391(计算技术、计算机技术)
厦门大学校科研和教改项目0000-X07204
2006-08-29(万方平台首次上网日期,不代表论文的发表时间)
共3页
1993-1995