基于概念簇的多主题提取算法

引用

摘要：

现实世界存在着大量的多主题文本，多主题在信息检索、图书情报等领域有着广泛的应用。传统主题提取算法大多是针对文本整体提取一个主题，且存在缺乏语义信息、向量高维和稀疏等缺陷。以《知网》为知识库，构建概念向量表示文本，根据概念的语义及上下文背景对同义词进行归并、对多义词进行排歧，并利用概念间语义关系实现语义相似度计算；在此基础上提出基于概念簇的多主题提取算法MEABCC，该算法通过对概念进行聚类，得到多个主题簇；在使用K?means算法进行概念聚类时，通过“预设种子”方法对其进行改进，以弥补传统K?means算法对初始中心的敏感性所引起的时空开销不稳定、结果波动较大的缺陷。实验结果表明，该算法具有较好的准确率、召回率和F1值。

关键词：语义、稀疏、上下文背景、知识库、概念簇、多主题提取、K-means、MEABCC

分类号：TP18(自动化基础理论)

资助基金：国家自然科学青年科学基金资助项目11201168．

在线出版日期：2015-05-21（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：261-266

英文信息展示

期刊专题