10.3969/j.issn.1000-7024.2005.08.065
基于词同现频率的文本特征描述
文本的特征描述是文本自动处理的基础工作之一,目前的文本特征描述一般采用加权VSM模型,该模型大都使用统计的和经验的加权算法,该算法方便了计算机对中文文本的相似度计算,但不能很好地揭示文本中词与词的关系.针对此缺点,提出了一种基于词同现频率的加权算法,使得文本的特征向量蕴涵了词与词的相关信息,最后用实验对该算法的效果进行了证明.
向量空间模型、文本挖掘、词同现频率、权重计算、匹配
26
TP391.1(计算技术、计算机技术)
2005-09-29(万方平台首次上网日期,不代表论文的发表时间)
共3页
2180-2182