基于词项聚类的文本语义标签抽取研究
本研究主要解决在大量文本数据中抽取关键语义信息的问题.文本是自然语言的信息载体,在分析和处理文本信息时,由于目标与方式不同,对文本信息的特征表达方式也各不相同.已有的语义抽取方法往往是针对单篇文本的,忽略了不同文本间的语义联系.为此,文中提出了基于词项聚类的文本语义标签提取方法.该方法以语义抽取为目标,以Hinton的分布式表示假说为文本信息的表达方式,并以最大化语义标签与原文本数据间的语义相似度为目标,使用聚类算法对语义标签进行聚类.实验表明,所提方法由于是基于全体词汇表对语义信息分布进行聚类计算的,因此在语义丰富度和表达能力上相比很多现有方法具有更好的表现.
语义抽取、分布式表示假说、聚类、相似度
45
TP391(计算技术、计算机技术)
国家自然科学基金91546111
2018-12-18(万方平台首次上网日期,不代表论文的发表时间)
共6页
417-421,438