DOI：10.3969/j.issn.1000-7024.2005.08.065

基于词同现频率的文本特征描述

引用

摘要：

文本的特征描述是文本自动处理的基础工作之一,目前的文本特征描述一般采用加权VSM模型,该模型大都使用统计的和经验的加权算法,该算法方便了计算机对中文文本的相似度计算,但不能很好地揭示文本中词与词的关系.针对此缺点,提出了一种基于词同现频率的加权算法,使得文本的特征向量蕴涵了词与词的相关信息,最后用实验对该算法的效果进行了证明.

关键词：向量空间模型、文本挖掘、词同现频率、权重计算、匹配

所属期刊栏目：26

分类号：TP391.1(计算技术、计算机技术)

在线出版日期：2005-09-29（万方平台首次上网日期，不代表论文的发表时间）

页数：共3页

页码：2180-2182

英文信息展示

期刊专题