10.3969/j.issn.1673-629X.2016.05.031
短信文本分类技术的研究
短信作为一种重要的交流手段,发挥着越来越重要的作用.但伴随着短信的广泛使用,垃圾短信则严重影响着人们的生活,因此文中基于短信文本特征词对短信进行分类研究.其中,TF-IDF特征词权重计算方法是对文本词汇权重计算的一种经典算法,得到了广泛应用.但此方法为了简化计算,忽略了词语之间的相互关系.针对此问题,依据同一短信文本中的词汇之间存在的相互关系,文中对权重计算法进行了调整,提出了基于模糊K均值的短信文本分类算法.即先将短信文本集用TF-IDF算法处理,得到词汇-文本集,再用模糊K均值算法对得到的词汇-文本集进行处理.最后通过实验,验证了基于模糊K均值的短信文本分类算法,其分类结果的查全率和查准率都较高,有效辨别了垃圾短信.
短信文本分类、向量空间模型、模糊聚类、模糊K均值
26
TP301(计算技术、计算机技术)
国家自然科学基金资助项目11241005;山西省高等学校教学改革研究项目J2012098;运城学院教学改革研究项目JG201418
2016-06-22(万方平台首次上网日期,不代表论文的发表时间)
共4页
145-148