基于词项聚类的文本语义标签抽取研究

引用

摘要：

本研究主要解决在大量文本数据中抽取关键语义信息的问题.文本是自然语言的信息载体,在分析和处理文本信息时,由于目标与方式不同,对文本信息的特征表达方式也各不相同.已有的语义抽取方法往往是针对单篇文本的,忽略了不同文本间的语义联系.为此,文中提出了基于词项聚类的文本语义标签提取方法.该方法以语义抽取为目标,以Hinton的分布式表示假说为文本信息的表达方式,并以最大化语义标签与原文本数据间的语义相似度为目标,使用聚类算法对语义标签进行聚类.实验表明,所提方法由于是基于全体词汇表对语义信息分布进行聚类计算的,因此在语义丰富度和表达能力上相比很多现有方法具有更好的表现.

关键词：语义抽取、分布式表示假说、聚类、相似度

所属期刊栏目：45

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金91546111

在线出版日期：2018-12-18（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：417-421,438

英文信息展示

期刊专题