DOI：10.11896/j.issn.1002-137X.2017.01.008

基于Word2Vec的情感词典自动构建与优化

引用

摘要：

情感词典的构建是文本挖掘领域中重要的基础性工作.近几年,情感词典的极性标注从二元褒贬标注向多元情绪标注发展,词典的领域特性也日趋明显.但是情感类别的手工标注不但费时费力,而且情感强度难以得到准确量化,同时对领域性的过分关注也大大限制了情感词典的适用性[1].通过神经网络语言模型对大规模中文语料进行统计训练,并在此基础上提出了基于转换约束集的多维情感词典自动构建方法;然后研究了基于词分布密度的感情色彩消歧方法,对兼具褒贬意味词语的感情极性进行区分和识别,并分别计算两种感情色彩下的情感类别与强度;最后提出基于多个语义资源的全局优化方案,得到包含10种情绪标注的多维汉语情感词典SentiRuc.实验证实该词典”在类别标注检验、强度标注检验、情感消歧效果及情感分类任务中均具有良好的效果,其中的情感强度检验证实该词典具有极强的情感语义描述力.

关键词：情感分析、多元情感分类、神经网络语言模型、情感消歧、情感强度优化框架

所属期刊栏目：44

分类号：TP391.1(计算技术、计算机技术)

资助基金：国家自然科学基金71271209;北京市自然科学基金4132067;教育部人文社会科学青年基金11YJC630268;数字出版技术国家重点实验室开放课题资助

在线出版日期：2017-04-10（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：42-47,74

英文信息展示

期刊专题