一种基于复杂网络的中文文本表示算法

引用

摘要：

[目的]为解决基于向量空间文本表示模型中语义信息缺失问题,提出一种基于复杂网络的中文文本表示算法.[方法]利用维基百科中所蕴涵的概念、链接结构和类别体系信息进行词语间相关度的计算,然后以此为基础将文本表示为以特征词为节点、词语相关关系为边及其相关度为权重的加权文本复杂网络.[结果]实验结果表明,该文本表示方法可以提高文本相似度计算结果,改善文本分类效果.[局限]文本网络中共现窗口的选择及跨度的选择规则借鉴的是已有研究.[结论]该文本表示方法可以较好地保留文本的结构信息及词汇间的关联信息,且利用基于维基百科的词语相关度计算方法使文本网络所表示的语义信息更加准确.

关键词：文本表示、复杂网络、维基百科、词语相关度、文本相似度

分类号：G350(情报学、情报工作)

资助基金：本文系国家自然科学基金项目“基于复杂网络的中文文本语义相似度研究”项目编号:71373200的研究成果之一.

在线出版日期：2014-12-18（万方平台首次上网日期，不代表论文的发表时间）

页码：38-44

英文信息展示

期刊专题