10.3969/j.issn.1673-4785.201405066
基于概念簇的多主题提取算法
现实世界存在着大量的多主题文本,多主题在信息检索、图书情报等领域有着广泛的应用。传统主题提取算法大多是针对文本整体提取一个主题,且存在缺乏语义信息、向量高维和稀疏等缺陷。以《知网》为知识库,构建概念向量表示文本,根据概念的语义及上下文背景对同义词进行归并、对多义词进行排歧,并利用概念间语义关系实现语义相似度计算;在此基础上提出基于概念簇的多主题提取算法MEABCC,该算法通过对概念进行聚类,得到多个主题簇;在使用K?means算法进行概念聚类时,通过“预设种子”方法对其进行改进,以弥补传统K?means算法对初始中心的敏感性所引起的时空开销不稳定、结果波动较大的缺陷。实验结果表明,该算法具有较好的准确率、召回率和F1值。
语义、稀疏、上下文背景、知识库、概念簇、多主题提取、K-means、MEABCC
TP18(自动化基础理论)
国家自然科学青年科学基金资助项目11201168.
2015-05-21(万方平台首次上网日期,不代表论文的发表时间)
共6页
261-266