VSM信息检索中的数据稀疏问题分析与规避策略
以矩阵理论作为研究的切入点,将经典向量空间模型中常用的向量和集合以矩阵的形式加以重构,并认为基于向量内积法的相似性计算与相应矩阵的乘法运算等价.结合稀疏矩阵和数据稀疏的定义,分析VSM信息检索背景下数据稀疏产生的原因;同时,讨论三种情形下数据稀疏对相似性计算的共同影响——部分毫无意义的时间复杂度.最后,给出规避数据稀疏问题的三层策略:文本级策略、文本集级策略和矩阵级策略.
向量空间模型、信息检索、数据稀疏、规避策略
57
G354(情报学、情报工作)
2013-03-28(万方平台首次上网日期,不代表论文的发表时间)
共5页
142-146