DOI：10.3772/j.issn.1000-0135.2011.05.001

基于语义准则函数的中文评论性文本极性聚类算法研究

引用

摘要：

通常用于评论性文本极性挖掘的方法是采用有监督的学习算法完成的,但有监督的学习算法需要大量人工标注的训练集,而且其在处理文本集时还会面临维数灾难、稀疏向量、高时空复杂度、低召回率和精确率等问题而无法用于海量的文本极性分类任务.经典的K-means均值聚类算法是聚类分析中使用最为广泛的算法之一,其具有诸多的优良特性和不足.针对上述情况,本文将语义引入经典K-means均值聚类算法中,构造了专门针对中文评论文本极性判断的极性词语义词典,提出了一种基于语义准则函数的K-means均值聚类算法.这项研究是运用基于语义的聚类方法对汉语主观性文本处理的一次探索.实验结果显示总平均召回率达到了80.70%,总平均精确率达到了67.75%,说明该算法是可行和有效的.

关键词：准则函数、极性词语义词典、文本聚类、评论、算法

所属期刊栏目：30

分类号：TP3;TP1

资助基金：教育部人文社会科学重点研究基地重大项目"基于智能信息处理的知识挖掘技术及应用研究"项目08JJD870225的研究成果之一;国家自然科学基金项目"企业竞争情报智能分析模型与方法研究"项目编辑:71073121

在线出版日期：2011-08-26（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：451-455

英文信息展示

期刊专题