10.3969/j.issn.1671-1122.2014.11.005
大数据时代中文文本褒贬倾向性分类研究
在当前的大数据时代,互联网上的博客、论坛产生了海量的主观性评论信息,这些评论信息表达了人们的各种情感色彩和情感倾向性。如果仅仅用人工的方法来对网络上海量的评论信息进行分类和处理实在是太难了,那么,如何高效地挖掘出网络上大量的具有褒贬倾向性观点的信息就成为目前亟待解决的问题,中文文本褒贬倾向性分类技术研究正是解决这一问题的一个方法。文章介绍了常用的文本特征选择算法,分析了文档频率和互信息算法的不足,通过对两个算法的对比和研究,结合文本特征与文本类型的相关度和文本褒贬特征的出现概率,提出了改进的文本特征选择算法(MIDF)。实验结果表明,MIDF 算法对文本褒贬倾向性分类是有效的。
褒贬倾向性分类、文本特征选择、褒贬特征提取
TP309(计算技术、计算机技术)
北京市自然科学基金重点项目 B 类[KZ2010009008];科技成果转化项目[PXM2013];北京市创新团队计划项目HT20130502
2014-12-05(万方平台首次上网日期,不代表论文的发表时间)
共6页
30-35