10.3969/j.issn.1000-0801.2011.06.008
商家评论的情感分类研究和应用
大多数基于有指导机器学习方法的情感分类采用N元(n-gram)词袋(bag-of-words)模型,使用二值(binary)作为特征项的权重.本文系统地分析了信息检索中常用的特征权重计算方法,并从项频、倒文档率、归一化因子等角度加以借鉴和改进,研究其在商家评论上的应用.最主要的改进在于考虑了特征项在不同类别中分布情况的差异以及对倒文档率的平滑.在餐饮评论语料上的实验结果表明,经典的tf·idf若干变形,尤其是倒文档率类差异(delta idf)及平滑因子(smoothing factor)的引入,能有效提高分类准确率.在酒店、电脑、书籍等领域的在线评论公开数据集上也取得了较好的性能,证明了方法的普遍适用性.这一方法目前已经在中国电信"号码百事通"业务中用于餐饮商家及优惠券推荐,效果良好.
商家评论、消费偏好、情感分析、褒贬分类、特征权重
27
TK4;TE8
2011-09-28(万方平台首次上网日期,不代表论文的发表时间)
共6页
43-48