DOI：10.3969/j.issn.1671-1122.2014.11.005

大数据时代中文文本褒贬倾向性分类研究

引用

摘要：

在当前的大数据时代，互联网上的博客、论坛产生了海量的主观性评论信息，这些评论信息表达了人们的各种情感色彩和情感倾向性。如果仅仅用人工的方法来对网络上海量的评论信息进行分类和处理实在是太难了，那么，如何高效地挖掘出网络上大量的具有褒贬倾向性观点的信息就成为目前亟待解决的问题，中文文本褒贬倾向性分类技术研究正是解决这一问题的一个方法。文章介绍了常用的文本特征选择算法，分析了文档频率和互信息算法的不足，通过对两个算法的对比和研究，结合文本特征与文本类型的相关度和文本褒贬特征的出现概率，提出了改进的文本特征选择算法（MIDF）。实验结果表明，MIDF 算法对文本褒贬倾向性分类是有效的。

关键词：褒贬倾向性分类、文本特征选择、褒贬特征提取

分类号：TP309(计算技术、计算机技术)

资助基金：北京市自然科学基金重点项目 B 类[KZ2010009008]；科技成果转化项目[PXM2013]；北京市创新团队计划项目HT20130502

在线出版日期：2014-12-05（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：30-35

英文信息展示

期刊专题